超网络：智能体模型的按需之道

企业团队不断目睹着同样的场景上演：一个AI智能体演示时表现完美，投入生产后却停滞不前——它能运行一段时间，但随后需要人类为其补充上下文并检查输出，承诺的效率逐渐转变为监督成本。智能体完成了工作，而你却成了监工。这也是为什么许多智能体试点项目最终无法转化为生产系统的原因之一。

墙的另一边是每个团队都愿意相信的承诺：一个能够独立运行长时间任务的智能体，必要时可以通宵工作，只需人类验证最后10%的结果。这一目标能否实现，取决于编排讨论中经常忽略的一个问题。当AI公司Chroma测试了18个领先模型时，每个模型都随着输入内容的增加而准确度下降，这是注意力机制的特性，而非更强的模型能够弥补的差距。随着智能体运行过程中输入越来越多的企业信息，它不会变得更加稳定，反而会变得更加不可靠。

这就是编排竞赛背后的深层问题。路由、持久执行和可观察性都假设每个智能体已经具备足够的能力进行协调。更深层的问题是智能体在人类介入前能运行多久，这取决于贵公司的知识相对于模型所处的位置。这两种标准解决方案都保留了人类在循环中。

为什么向模型教授企业知识会让人类保持在循环中

前沿模型的能力不断提升，但差距并未缩小，因为这并非能力问题，而是关于您的知识相对于模型的位置。企业曾有两种方式将知识放置在那里。

第一种是微调，将知识烘焙到权重中。它仍然面临灾难性遗忘的问题，这一问题在1980年代就被发现，并且在2026年仍未解决：教模型新知识往往会侵蚀它已经掌握的知识。团队通过将每个任务隔离在自己的微调模型或适配器中来解决这个问题，这导致了一系列分散的模型，增加了成本和治理开销。而且，微调模型只是一个快照，从政策变化的那天起就变得过时，昂贵而缓慢的再训练周期需要重新开始。

第二种是上下文学习，通过在运行时将相关策略放入提示中来跳过再训练。这就是上下文衰减问题所在。检索限制了提示中的内容，但检索失败与自信的回答看起来一模一样，而且每增加一个标记，成本和延迟都会上升。

这两种失败模式相似。对于微调，模型可能自信地基于上一季度的策略工作；对于上下文学习，它可能自信地基于在长提示中间丢失的细节工作。无论哪种情况，输出看起来同样确定，因此如果不检查所有部分，您就无法判断哪些部分是错误的。这就是为什么人类永远无法离开循环。有些团队同时运行这两种方法，微调稳定的知识，检索其余部分。这减轻了每种失败，但没有消除任何一种：对于任何给定的输出，您仍然无法确定模型既是最新的又使用了正确的上下文，因此您仍然需要检查它。

第三条路径：按需生成专业模型

第三种方法正从研究阶段进入早期产品阶段。与其重新训练一个模型或填充其提示，不如让生成器在推理时根据您的策略按需构建一个小型、任务特定的模型。这个生成器是一个超网络：一个输出是另一个网络权重的网络。

这一概念在2016年被命名；将其用于从文本或文档生成专业语言模型是最近且活跃的研究领域。Sakana AI的Text-to-LoRA（在ICML 2025上展示）通过单次传递从自然语言描述生成模型适配器，而2026年名为SHINE的系统称超网络适配是一个有前途的新前沿，正是因为它避开了微调的再训练成本和提示的上下文限制。

生成适配器而不是训练和存储它们的意义在于，可以将分散的每任务LoRA库 collapse 为一个可以按需生成它们的网络，包括它未曾见过的任务。

其精妙之处在于如何解决了上述问题：团队为避免灾难性遗忘而手动构建的每任务适配器，与超网络自动生成的对象是相同的。模型动物园不再是治理难题，而成为了生成的输出。

采用小模型的基础论点在Nvidia研究人员2025年的一篇论文中得到了最直接的阐述：对于填充智能体工作流的狭义、重复性任务，小型模型能力足够，而且运行成本比前沿通用模型低10到30倍。Palo Alto公司Nace.AI是这一领域最清晰的商业实例，该公司在5月完成了2150万美元的种子轮融资。其核心技术是一个名为MetaModel的生成器，在推理时根据公司政策为模型生成参数适配，针对受监管的工作：审计、合规、风险评估。该公司表示，其智能体可以处理工作流程的大部分，而人类专家验证结果，这种比例他们宣传为90/10。

三种方法的比较

	微调	上下文学习/RAG	超网络生成的模型
企业知识存储位置	在模型权重中	在提示中，每次运行重新提供	在按需生成的权重中
政策变更的更新成本	高：需要重新训练	低：编辑源数据	低：重新生成
信息过时程度	高：只是一个快照	低	低：从当前政策重新生成
每次调用的成本和延迟	低	高，随上下文增长	运行时低
主要失败模式	遗忘；模型动物园扩散	上下文衰减；无声检索失败	生成器质量；校准
谁拥有改进的资产	谁训练模型	谁持有数据存储	取决于生成器和反馈的位置