AI优化新突破：Arbor框架性能提升2.5倍

想象一下，您的工程团队刚刚部署了一个AI智能体来搜索公司内部文档并回答员工提问。它在开发环境中表现完美，但在生产环境中却频繁产生幻觉或遗漏关键约束。解决这些问题往往不是简单的补丁，而是需要繁琐的试错过程，同时调整分块策略、检索方法和系统提示。由于这些调整相互交织，几乎不可能确定是哪个具体调整真正解决了问题。

为应对这一挑战，中国人民大学和微软研究院的研究人员推出了Arbor框架，将AI驱动的研究与优化从一系列试错猜测转变为累积学习过程。Arbor将假设、实验和见解组织成树状结构，帮助系统从先前失败中学习，随时间推移做出更智能、经验证的改进。

在实际测试中，Arbor在相同资源预算下，完成了比标准AI编码智能体高出2.5倍的可验证性能提升。

对于企业AI应用，这项技术直接转化为自动化复杂工程系统的持续改进过程。

理解自主优化的瓶颈

随着大型语言模型和AI系统能力不断增强，人们期望它们能够执行更复杂的操作，例如智能体控制套件或模型训练算法等软件系统的自主优化(AO)。

AO捕捉了自主研究的基本循环。一个AI智能体从初始的可变工件(如机器学习代码库或数据管道)和特定目标开始，其目标是通过实验反馈迭代改进这一工件，无需逐步的人工监督。

AO的主要挑战常常被误解。许多工程团队发现，仅仅给编码智能体更多时间或计算资源来优化代码库并不会带来更好的结果。该论文的合著者Jiajie Jin告诉VentureBeat：”自动化可以让AI工作很长时间，但循环不等于进步。如果目标模糊，或指标容易被破解，长时间运行的自动化往往只是更快地产生’改进’，而这些改进实际上没有人需要。”

Jin解释说，复杂任务需要多次尝试才能正确完成，而标准智能体架构缺乏维护状态的关键数据结构。”如何确保每次尝试的见解和经验真正累积起来，而不是消失在回滚缓冲区中？”他问道。没有这种结构，智能体只会重复同样的错误。

当前智能体系统可以针对明确的目标运行数小时的实验：编辑代码、调用工具、自主运行测试。但它们将每次尝试孤立对待，缺乏累积和利用所学知识的结构化机制。

它们无法同时维护和比较多个竞争性研究方向。没有这一点，它们无法解读成功和失败以重塑未来探索，这正是使人类研究具有累积性的核心机制。

通用编码智能体通常依赖对话记录作为记忆。由于AO任务涉及数百次交互，容易超出上下文窗口限制，这些智能体难以在长时间历史中保存和重用事实证据。因此，它们失去了研究过程的整体结构，容易在早期失败时停滞不前或追逐嘈杂的评估波动。系统需要一个结构化的持久内存，记录已尝试的方向、产生的事实证据以及每个结果如何改变未来假设的空间。

现有框架也容易受到奖励黑客和过度拟合开发指标的影响。这使得它们创造进步的错觉，而不会产生转移到实际性能的改进。

最后，通用编码智能体通常在单个共享工作树上链接它们的工具调用。这种架构限制使它们无法在不污染主代码库或模糊哪个假设导致特定结果的情况下，在隔离环境中测试并行假设。

Arbor框架的解决方案

Arbor通过一个框架解决了AO的挑战，该框架自动化了探索、实验和抽象的长期循环，这是人类研究的特征。Arbor通过两个关键组件将研究的战略方向与底层编码任务分离：

协调器：一个长期存在的AI智能体，类似于首席研究员。它不直接编辑目标代码库。相反，它拥有优化的研究总体状态，观察累积的证据，提出新的假设和探索方向，并决定如何处理实验结果。
执行者：短期存在、高度专注的AI智能体。当协调器想要测试一个想法时，它会启动一个执行者并将其置于隔离环境中，本质上是一个全新的git工作树。每个执行者获得一个假设。它实现分配的想法，运行评估，调试错误，并向协调器报告结果和创建的工件。

这两个组件通过研究人员称为”假设树细化”(HTR)的机制协作。HTR将整个研究过程表示为一个持久的、分支树，其中每个节点绑定四个要素：假设、可执行工件、产生的事实证据和提炼的见解。这意味着协调器可以同时探索多个竞争方向而不会迷失方向。

协调器通过将广泛的想法放在树根附近来构建树，而具体的细化则作为分支延伸。这使得Arbor能够安全地同时探索多个竞争性假设。如果执行者的实验失败，树会记录失败原因作为负面约束，确保系统不会无休止地重复同样的错误。

要理解为什么Arbor的隔离测试很重要，考虑一个常见的企业场景：优化内部AI助手的检索增强生成(RAG)管道。Jin说：”当你像Claude Code或Codex这样的单一智能体要求’提高准确性’时，它通常会在一次尝试中改变很多东西——分块、提示、检索方法。”这会使这些变化相互交织，无法确定哪个真正有效。它还会直接变更存储库而不进行隔离。

Arbor通过将每个杠杆视为独立假设来解决这一问题。分块成为一个分支，检索成为另一个分支，提示成为另一个分支——每个都在自己隔离的git工作树中实现和评估。”这样你就能获得清晰的归因：’检索方面的约束分解带来了+X的提升；广度优先搜索实际上有害，'”Jin说。

当执行者返回报告时，协调器将证据写入树并将见解向上传播到父节点。这意味着局部观察变成了塑造协调器未来想法生成的广义约束。

为防止奖励黑客或过度拟合开发数据，HTR强制执行严格的”合并门”。即使执行者报告出色的开发分数，协调器也会启动一个隔离的测试环境来验证该改进是否真正有效。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/orchestration/new-ai-optimization-framework-beats-claude-code-and-codex-by-2-5x-on-the-same-compute-budget