Harness-1开源智能体:信息检索能力超越GPT-5.4
伊利诺伊大学厄巴纳-香槟分校(UIUC)、加州大学伯克利分校与开源AI原生向量数据库平台Chroma的研究者联合推出了一款名为Harness-1的开源智能体。这款拥有200亿参数的搜索智能体基于OpenAI的gpt-oss-20B开源模型构建,从根本上重新设计了AI执行复杂检索任务的方式。
性能突破:Harness-1的优势

Harness-1在性能上实现了巨大飞跃,从精选数据集中正确召回相关信息的平均得分达到73%,超越了GPT-5.4(70.9%)的表现,甚至比最准确的开源搜索智能体Tongyi DeepResearch 30B高出11.4个百分点。(尽管GPT-5.5已发布一个多月,但研究人员在构建Harness-1时该模型尚未可用,因此未进行测试对比。)
对开发者而言,该模型及其环境现已获得高度宽松的Apache 2.0许可证,可在Hugging Face平台获取模型代码和权重。
Harness-1同时也是另一项努力的效验证明——由Thinking Machines开发的分布式、基于Web的AI模型训练和微调API”Tinker”。Tinker被专门用于训练和运行Harness-1的推理,突显了交互式基础设施如何积极赋能下一代自主模型。
基准测试解析
为了真正测试这些模型的表现,研究人员对Harness-1及其竞争对手在八项高度复杂的搜索基准上进行了评估。这些测试并非简单的问答,而是要求AI扮演真实研究者的角色,从多样化、密集的数据源中筛选信息。
基准测试涵盖多个领域,包括开放网络搜索、美国证券交易委员会(SEC)的复杂财务文件、美国专利商标局(USPTO)的技术专利数据库,以及”多跳”问答任务。在后者中,AI需要从多个不同文档中逻辑性地拼凑分散的线索,才能得出正确答案。
测试结果显示,Harness-1在成功查找和筛选正确事实的能力上,在开源竞争中占据主导地位。更令人印象深刻的是,这款相对较小的200亿参数模型与庞大昂贵的专有AI系统展开了有力竞争。它实际上超越了GPT-5.4、Sonnet-4.6和Kimi-K2.5等被视为拥有数千亿甚至数万亿参数的重量级模型。只有一款前沿大型模型——Opus-4.6——在总体平均表现上略微领先于Harness-1。
技术革新:环境中的智能记忆管理
Harness-1通过将搜索会话中繁琐的”记账”工作从模型的工作内存转移到结构化软件环境中,实现了性能提升。
随着企业用例变得越来越复杂,要求模型能够自主筛选数千份公司文件或财务报告,这些系统常常陷入”搜索遗忘症”——忘记原始查询、重复检索已被拒绝的文档,或失去对需要验证的具体主张的追踪。
直到现在,解决这种遗忘的主要方法是蛮力应对。工程师通常迫使模型不断重读自己行动的不断扩展、仅追加的记录,将每次搜索、阅读和思考都堆积到庞大的上下文窗口中。
Harness-1引入了这一方法的范式转变,证明真正人工智能自主能力的瓶颈不一定是模型的大小,而是其工作环境管理状态的效率。正如Anthropic的Claude Code所展示的那样,它再次强调了原始模型可能不如其运行所依赖的”工具集”或条件重要。
技术解析:环境中的文书工作
要理解Harness-1的技术飞跃,可以考虑一个现实世界的类比。
想象你雇佣了一位才华横溢的研究助理,却将他们置于一个没有桌子、笔记本或文件柜的空房间中。你要求他们就一个高度复杂的主题撰写一份全面的报告,这需要他们阅读数十本书,同时将每一个引文、引用和失败的搜索都完美地记在脑海中。最终,无论这位助理多么聪明,他们的认知负荷都会达到极限,开始遗漏事实或失去任务的线索。
这正是当今传统搜索智能体的运作方式。它们被训练为在增长记录上的策略,意味着模型搜索、阅读、再次搜索,并将所有内容都附加到自己的上下文窗口中。
正如伊利诺伊大学的主要研究员Patrick (Pengcheng) Jiang在X上所指出的:”在某个时刻,模型不仅仅是’搜索’,它还被要求成为一个记忆系统、记录员、验证者和图书管理员。”
Harness-1通过给AI一张书桌和一个文件柜解决了这个问题——研究团队称之为”状态外化工具集”。
这个工具集是一个活跃的周围环境,接管了日常的记账工作,维护着一个可恢复的工作内存,包括候选文档池、带重要性标记的精选证据集、紧凑的证据链接和验证记录。
通过将语义选择与结构状态管理分离,AI被解放出来去做它最擅长的事情。
策略仍然决定搜索什么、确定保留哪些文档,以及何时停止,而环境则仅负责维护状态。
训练Harness-1:数据效率的典范
Harness-1的训练流程代表了AI行业对智能体学习方法的一次根本转变。
传统上,开发者将搜索智能体视为在庞大且不断增长的记录上运行的策略,迫使强化学习(RL)算法同时优化语义推理和搜索状态的原始记忆。
Harness-1的创造者采取了截然不同的方法:由于他们的定制”工具集”处理了所有日常的记账工作——如维护证据链接、候选池和验证记录——训练过程只需要教会模型如何操作这个结构化接口。
这种分工极大地简化了底层200亿参数模型实际需要学习的内容。
过程始于一个相当狭窄的监督微调(SFT)阶段。团队没有刮取数PB的新行为数据,而是使用一个连接到学生模型最终将使用的相同工具集环境的GPT-5.4教师智能体,仅生成了899条过滤轨迹。
这一SFT阶段的目的不是向模型注入大量领域知识,而是简单地教会它优秀研究者的机械节奏:如何格式化工具调用、如何标记文档…
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!