斯坦福推DeLM：去中心化架构让多智能体成本减半

打破“中央集权”：AI智能体的新协作模式

当前的AI架构通常基于一个默认假设：智能体系统需要一个位于中心的“指挥官”。这个中央编排器负责统筹全局、路由请求，并确保系统不陷入混乱。然而，斯坦福大学的研究表明，这一假设可能并不成立，其代价是高昂的推理成本和协调延迟。

斯坦福团队提出了一种名为“去中心化语言模型（DeLM）”的新框架。该框架的核心前提是：智能体完全可以直接进行协调，无需将每一次更新都路由通过中央控制器。DeLM通过一个共享知识库作为“公共通信基板”，让智能体能够直接建立在彼此验证的进度之上，而不必通过主智能体进行“合并、过滤和再广播”。

正如该框架的联合开发者Yuzhen Mao和Azalia Mirhoseini在研究论文中所述，这种系统不仅可行，而且在特定场景下极具优势。“智能体可以利用先前的发现，避免重复失败，保留约束条件，并仅在需要时检索详细证据。”

传统多智能体系统的瓶颈

在典型的集中式多智能体系统中，主智能体负责将任务拆解为子任务，并行分发给多个子智能体，等待响应，合并并总结中间进度，然后根据收集到的上下文发起下一轮指令。

虽然这是扩展大语言模型（LLM）推理能力的自然方式，但斯坦福研究人员指出，这种方法的扩展性较差。每一个有用的发现、部分结果或失败都必须汇报给主智能体，由其决定合并哪些信息并广播给下级智能体。

“随着子任务数量的增加，这个控制器变成了通信和集成的瓶颈，”Mao和Mirhoseini写道。此外，主编排器可能会“稀释、遗漏或扭曲”有用信息，导致进度丢失。

这种瓶颈在长上下文推理场景中尤为明显。当主智能体收到子智能体的报告后，通常会在无监督学习循环中将相关概念、数据点和其他材料分组。在尚未确定哪些表面材料真正相关或组合是否正确的情况下，它可能会预先将这些“证据簇”分配给子智能体。

当子智能体接收到这些不充分的上下文时，往往会感到困惑并返回主智能体，从而开启新一轮的检索或委托。研究人员指出：“这种来回拉扯使得协调变得更慢、更具迭代性，并且越来越受到单个超负荷主智能体的限制。”

DeLM的运作机制与核心架构

相比之下，DeLM是围绕并行智能体、共享上下文和任务队列构建的。

共享上下文本质上是一个精选的“要点”存储库，即其他智能体可能觉得有用的信息摘要。这些内容包括经过验证的、基于证据的发现，以及部分发现和记录在案的失败案例；它们还指向智能体可以根据特定任务提取的详细证据。

任务队列则是一组后续的待处理子任务，智能体可以独立认领这些任务。

“智能体将紧凑的、经过验证的更新写入共享上下文，后续智能体可以直接读取这些内容，”研究人员写道。有用的发现、失败和约束作为“共享问题状态”累积起来，而不是通过中央控制器传递。

其工作流程如下：

初始化： 输入被分解为不同的工作单元并加入队列；
并行执行： 智能体独立且协同工作，在推进过程中拉取任务并读取共享上下文。
压缩与验证： 结果被压缩为可复用的“要点”，并根据支持证据进行检查。只有完全验证通过的要点才会与团队共享。
增补工作（如需）： 当队列清空时，最后一个返回答案的智能体会检查所有共享上下文，以确定是否需要进一步的工作。
最终步骤： 最后一个智能体确认无需更多步骤，并返回最终答案。

研究人员解释说，智能体“通过共享状态交换进度，异步认领就绪任务，并随着子任务数量的增长更具适应性地扩展。”

实战表现：成本降低50%，准确率显著提升

借助DeLM，智能体可以避免冗余探索；复用并建立在彼此的发现和失败之上；专注于未解决的问题。

该框架在软件工程的测试时扩展中特别有用，即模型被给予时间来“思考”以提高推理和解决问题的能力。不同的智能体可以并行探索自己的假设或推理路径，同时共享中间进度。并发调试就是一个典型的例子。

DeLM也适用于长上下文推理和多文档问答；智能体可以同时检查自己的证据簇（论文、代码或其他材料的集合），同时保持累积证据的“全局紧凑视图”。

研究人员声称，这使得智能体任务更准确，且成本显著降低。真实世界基准测试的数据支持了这一点：在评估AI模型和智能体解决现实软件工程问题能力的SWE-bench Verified测试中，DeLM的表现比最强基线高出10.5%，并将每项任务的成本降低了约50%。

除了编码领域，在评估LLM处理长上下文现实世界问题能力的LongBench-v2多文档问答测试中，DeLM在包括GPT-5.4、Claude Sonnet、Gemini Flash和DeepSeek-V4-Pro在内的四个模型系列中均获得了最高准确率。

DeLM成功的关键要素

Mao在X平台上详细阐述了DeLM在SWE-Bench上表现优异的几个原因：

首先，智能体共享失败记录。在普通的并行运行中，当一个智能体走错路时，该失败记录是私有的，后续智能体可能会浪费时间（和金钱）去追求同样的死胡同。但在DeLM中，失败的假设被写入共享上下文。

“后续智能体可以将它们作为约束条件读取，避免重复探索，并将搜索重定向到更有希望的修复方案上，”Mao说。

此外，一旦经过验证，约束条件会立即添加到智能体的共享上下文中。这意味着它们成为了一种绑定的共享状态。“后续智能体继承这些约束，围绕它们进行构建，并避免重复全局无效的简化操作，”Mao表示。

至关重要的是，DeLM保持共享进度足够紧凑以便复用。它是可展开的，意味着智能体默认看到简短的要点，但可以选择将其展开为更详细的摘要和原始证据。

正如研究人员指出的那样，提供所有原始文档和追踪记录虽然给智能体提供了最大量的信息，但这可能会淹没它们的上下文窗口，并最终增加成本。

“如果智能体共享完整的追踪记录，每个工作节点都需要阅读长长的命令历史、文件转储、失败的编辑和中间推理，这将使协调本身变成另一个长上下文瓶颈，”Mao说。

另一方面，虽然共享紧凑摘要更便宜，但可能会丢失重要细节和证据，导致推理可靠性降低。

因此，展开机制提供了“由粗到细”的按需访问。这可以提高准确性和成本效益。

最终，通过像DeLM这样的框架，智能体可以变得更高效，因为它们被阻止重复阅读相同的文档或重新运行相同的失败分析；它们也更有效，因为……

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/orchestration/stanfords-delm-cuts-multi-agent-task-costs-50-without-a-central-orchestrator

0 0

斯坦福推DeLM：去中心化架构让多智能体成本减半

打破“中央集权”：AI智能体的新协作模式

传统多智能体系统的瓶颈

DeLM的运作机制与核心架构

实战表现：成本降低50%，准确率显著提升

DeLM成功的关键要素

评论列表

发表评论

为你推荐

近期文章

标签

近期评论

分类

热门文章