智能体自改规则:性能提升60%
并非每家企业都需要或应该构建自己的前沿AI语言模型。然而,控制模型的系统框架却是大多数企业能够且应该针对自身需求进行定制的部分。
当然,这说起来容易做起来难。基于智能体的控制框架目前仍主要通过人工、即兴的调试方式进行调优——这个过程严重依赖直觉而非系统化的反馈循环,使得框架难以跟上快速发展的LLM步伐。

为解决这一挑战,上海人工智能实验室的研究人员推出了”Self-Harness“,这是一种新范式,其中基于LLM的智能体可以系统性地改进自身操作规则。通过检查自身执行轨迹来应用修改,该系统将人工猜测转化为实证依据。
自我改进的控制框架能使开发团队部署强大的定制智能体,这些智能体能持续调整自身执行协议,以克服模型特定的弱点。
控制框架工程的挑战
基于LLM的智能体的性能不仅取决于其底层基础模型,还取决于其控制框架:提供上下文并使模型能够与环境交互的周边系统。控制框架包括系统提示、工具、内存、验证规则、运行时策略、编排逻辑和故障恢复程序等组件。
这一层至关重要,因为许多常见的智能体故障源于控制框架而非模型本身。例如,智能体可能在未检查模型响应的情况下报告成功(例如运行代码以测试是否通过),或者它可能重复尝试失败的操作。控制框架还负责防止当智能体交互历史变得非常大时出现上下文腐朽或过载。流行的控制框架包括SWE-agent、Claude Code、Codex和OpenHands等。
控制框架工程仍然是一项重大挑战,但瓶颈不一定在于人类太慢或能力不足。
事实上,Self-Harness论文的第一作者张航帆(Hangfan Zhang)告诉VentureBeat:”在许多情况下,具有深厚领域知识的有经验工程师仍然可以提出比当今LLM更好的改进方案。”
相反,人工工程的真实瓶颈在于它严重依赖即兴调试,而非可验证的实证反馈循环。”更深层次的问题是,当前的控制框架工程范式通常缺乏系统化的反馈循环,”张解释道。”许多修改是基于直觉、少量观察到的失败或即兴调试而进行的。”
随着新模型以快速节奏发布,依赖人类直觉手动调整特定模型控制框架变得越来越昂贵且不可持续。虽然一些方法使用更强的模型来改进较弱目标智能体的控制框架,但这种对外部指导的依赖也有其挑战,因为这些模型可能成本高昂、前沿模型无法获取,或者与目标模型的故障模式不匹配。
Self-Harness的工作原理
Self-Harness范式使基于LLM的智能体能够在不依赖人类工程师或更强的外部模型的情况下改进自身的控制框架。
这种持续的自进化由一个三阶段迭代循环驱动,它将行为证据转化为控制框架更新:
- 弱点挖掘:从初始控制框架开始,智能体运行一组任务,产生可验证结果的执行轨迹。智能体对失败的轨迹进行分类,并尝试检测模型特定的故障模式。
- 控制框架提案:基于这些故障模式,智能体使用”提议者”角色生成一组多样化且最小的控制框架修改,每个修改都针对特定的故障机制,以避免过于笼统的修正。
- 提案验证:系统通过回归测试评估候选修改。只有在不保留任务上引起可测量的性能下降的情况下,修改才会被采纳。如果多个候选修改通过回归测试,它们会被合并到控制框架的下一个版本中,然后作为下一次迭代的起点。
为了说明企业为何需要这项技术,想象一个自动修复问题的智能体,它阅读内部文档、编写补丁并创建拉取请求。如果公司更新了其文档风格,智能体可能会突然失效,拉取错误上下文或编写糟糕的补丁。
表面上,智能体看起来只是坏了。但Self-Harness将这种模糊的失败转化为可解决的问题。”故障轨迹暴露了智能体如何错误地使用新的文档格式;提议者可以生成有针对性的控制框架修改…评估者可以决定该修改是否改善了失败的案例而不会在其他案例上出现退化,”张说。
Self-Harness的实际应用
研究人员在Terminal-Bench-2.0上评估了Self-Harness,这是一个测试通用工具执行能力的基准,包括工件管理、命令使用、验证行为和从执行错误中恢复。他们将Self-Harness与MiniMax M2.5、Qwen3.5-35B-A3B和GLM-5结合使用。
为了隔离自进化控制框架的影响,他们基于DeepAgent SDK构建了一个最小控制框架,仅包含面向基准的系统提示,以及默认的文件系统和shell工具。模型后端、工具集、基准环境和评估器保持不变,只允许控制框架变化。
定量结果表明,智能体通过自动控制框架修改提高了性能。在保留的任务上,性能普遍显著提升,不同模型的相对提升幅度在33%到60%之间。
重要的是,明确的接受规则只推广那些在不引入不可接受的退化的前提下提高性能的修改。Self-Harness对企业应用强大的原因在于,它不仅仅是使提示更长或添加通用指令。相反,它引入了针对性的修改,反映了每个模型在执行过程中遇到的问题。
例如,在基线控制框架下,MiniMax M2.5会无休止地探索数据集配置,直到执行环境超时,无法产生任何交付成果。通过Self-Harness,系统识别了这一特定缺陷,并在其运行时策略中写入了一个”循环中断器”,强制智能体在50次工具调用后停止并重新定向其方法。它还添加了一条规则,要求尽可能早地创建所需工件的初始版本。
另一方面,Qwen-3.5有遇到文件覆盖错误后盲目重复相同命令的习惯,最终在困惑中删除了必要的文件才停止。自我控制框架通过引入严格的命令重试纪律(禁止完全相同的命令)以及在发生文件错误时强制智能体立即重新创建任何缺失的工件来修复此问题。
GLM-5难以在不同命令间保持环境变化,经常浪费时间进行大量下载或在健全性检查失败的情况下完成任务。其自生成的控制框架引入了指示智能体在shell会话间持久PATH变量、限制外部计算以及在完成运行前修复任何失败的健全性检查的规则。
尽管Self-Harness自动控制框架具有明显优势,但我们也必须认识到其中的隐形成本。随着智能体不断自我修改,系统的复杂性和不可预测性也随之增加。企业需要投入资源来监控这些变化,确保它们不会引入新的安全隐患或与现有系统产生冲突。此外,过度依赖智能体的自我进化可能导致人类对系统行为的理解减弱,当出现问题时,排查和修复的难度也会相应增加。因此,在采用这种自动化框架时,企业需要在效率与可控性之间找到平衡点。
关注微信号:智享开源,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!