斯坦福推DeLM:去中心化架构让多智能体成本减半

打破“中央集权”:AI智能体的新协作模式
当前的AI架构通常基于一个默认假设:智能体系统需要一个位于中心的“指挥官”。这个中央编排器负责统筹全局、路由请求,并确保系统不陷入混乱。然而,斯坦福大学的研究表明,这一假设可能并不成立,其代价是高昂的推理成本和协调延迟。
斯坦福团队提出了一种名为“去中心化语言模型(DeLM)”的新框架。该框架的核心前提是:智能体完全可以直接进行协调,无需将每一次更新都路由通过中央控制器。DeLM通过一个共享知识库作为“公共通信基板”,让智能体能够直接建立在彼此验证的进度之上,而不必通过主智能体进行“合并、过滤和再广播”。
正如该框架的联合开发者Yuzhen Mao和Azalia Mirhoseini在研究论文中所述,这种系统不仅可行,而且在特定场景下极具优势。“智能体可以利用先前的发现,避免重复失败,保留约束条件,并仅在需要时检索详细证据。”
传统多智能体系统的瓶颈
在典型的集中式多智能体系统中,主智能体负责将任务拆解为子任务,并行分发给多个子智能体,等待响应,合并并总结中间进度,然后根据收集到的上下文发起下一轮指令。
虽然这是扩展大语言模型(LLM)推理能力的自然方式,但斯坦福研究人员指出,这种方法的扩展性较差。每一个有用的发现、部分结果或失败都必须汇报给主智能体,由其决定合并哪些信息并广播给下级智能体。
“随着子任务数量的增加,这个控制器变成了通信和集成的瓶颈,”Mao和Mirhoseini写道。此外,主编排器可能会“稀释、遗漏或扭曲”有用信息,导致进度丢失。
这种瓶颈在长上下文推理场景中尤为明显。当主智能体收到子智能体的报告后,通常会在无监督学习循环中将相关概念、数据点和其他材料分组。在尚未确定哪些表面材料真正相关或组合是否正确的情况下,它可能会预先将这些“证据簇”分配给子智能体。
当子智能体接收到这些不充分的上下文时,往往会感到困惑并返回主智能体,从而开启新一轮的检索或委托。研究人员指出:“这种来回拉扯使得协调变得更慢、更具迭代性,并且越来越受到单个超负荷主智能体的限制。”
DeLM的运作机制与核心架构
相比之下,DeLM是围绕并行智能体、共享上下文和任务队列构建的。
共享上下文本质上是一个精选的“要点”存储库,即其他智能体可能觉得有用的信息摘要。这些内容包括经过验证的、基于证据的发现,以及部分发现和记录在案的失败案例;它们还指向智能体可以根据特定任务提取的详细证据。
任务队列则是一组后续的待处理子任务,智能体可以独立认领这些任务。
“智能体将紧凑的、经过验证的更新写入共享上下文,后续智能体可以直接读取这些内容,”研究人员写道。有用的发现、失败和约束作为“共享问题状态”累积起来,而不是通过中央控制器传递。
其工作流程如下:
- 初始化: 输入被分解为不同的工作单元并加入队列;
- 并行执行: 智能体独立且协同工作,在推进过程中拉取任务并读取共享上下文。
- 压缩与验证: 结果被压缩为可复用的“要点”,并根据支持证据进行检查。只有完全验证通过的要点才会与团队共享。
- 增补工作(如需): 当队列清空时,最后一个返回答案的智能体会检查所有共享上下文,以确定是否需要进一步的工作。
- 最终步骤: 最后一个智能体确认无需更多步骤,并返回最终答案。
研究人员解释说,智能体“通过共享状态交换进度,异步认领就绪任务,并随着子任务数量的增长更具适应性地扩展。”
实战表现:成本降低50%,准确率显著提升
借助DeLM,智能体可以避免冗余探索;复用并建立在彼此的发现和失败之上;专注于未解决的问题。
该框架在软件工程的测试时扩展中特别有用,即模型被给予时间来“思考”以提高推理和解决问题的能力。不同的智能体可以并行探索自己的假设或推理路径,同时共享中间进度。并发调试就是一个典型的例子。
DeLM也适用于长上下文推理和多文档问答;智能体可以同时检查自己的证据簇(论文、代码或其他材料的集合),同时保持累积证据的“全局紧凑视图”。
研究人员声称,这使得智能体任务更准确,且成本显著降低。真实世界基准测试的数据支持了这一点:在评估AI模型和智能体解决现实软件工程问题能力的SWE-bench Verified测试中,DeLM的表现比最强基线高出10.5%,并将每项任务的成本降低了约50%。
除了编码领域,在评估LLM处理长上下文现实世界问题能力的LongBench-v2多文档问答测试中,DeLM在包括GPT-5.4、Claude Sonnet、Gemini Flash和DeepSeek-V4-Pro在内的四个模型系列中均获得了最高准确率。
DeLM成功的关键要素
Mao在X平台上详细阐述了DeLM在SWE-Bench上表现优异的几个原因:
首先,智能体共享失败记录。在普通的并行运行中,当一个智能体走错路时,该失败记录是私有的,后续智能体可能会浪费时间(和金钱)去追求同样的死胡同。但在DeLM中,失败的假设被写入共享上下文。
“后续智能体可以将它们作为约束条件读取,避免重复探索,并将搜索重定向到更有希望的修复方案上,”Mao说。
此外,一旦经过验证,约束条件会立即添加到智能体的共享上下文中。这意味着它们成为了一种绑定的共享状态。“后续智能体继承这些约束,围绕它们进行构建,并避免重复全局无效的简化操作,”Mao表示。
至关重要的是,DeLM保持共享进度足够紧凑以便复用。它是可展开的,意味着智能体默认看到简短的要点,但可以选择将其展开为更详细的摘要和原始证据。
正如研究人员指出的那样,提供所有原始文档和追踪记录虽然给智能体提供了最大量的信息,但这可能会淹没它们的上下文窗口,并最终增加成本。
“如果智能体共享完整的追踪记录,每个工作节点都需要阅读长长的命令历史、文件转储、失败的编辑和中间推理,这将使协调本身变成另一个长上下文瓶颈,”Mao说。
另一方面,虽然共享紧凑摘要更便宜,但可能会丢失重要细节和证据,导致推理可靠性降低。
因此,展开机制提供了“由粗到细”的按需访问。这可以提高准确性和成本效益。
最终,通过像DeLM这样的框架,智能体可以变得更高效,因为它们被阻止重复阅读相同的文档或重新运行相同的失败分析;它们也更有效,因为……
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!