Harness-1开源智能体：信息检索能力超越GPT-5.4

Mark Do 暂无评论阅读 148 次

伊利诺伊大学厄巴纳-香槟分校(UIUC)、加州大学伯克利分校与开源AI原生向量数据库平台Chroma的研究者联合推出了一款名为Harness-1的开源智能体。这款拥有200亿参数的搜索智能体基于OpenAI的gpt-oss-20B开源模型构建，从根本上重新设计了AI执行复杂检索任务的方式。

性能突破：Harness-1的优势

Harness-1在性能上实现了巨大飞跃，从精选数据集中正确召回相关信息的平均得分达到73%，超越了GPT-5.4(70.9%)的表现，甚至比最准确的开源搜索智能体Tongyi DeepResearch 30B高出11.4个百分点。(尽管GPT-5.5已发布一个多月，但研究人员在构建Harness-1时该模型尚未可用，因此未进行测试对比。)

对开发者而言，该模型及其环境现已获得高度宽松的Apache 2.0许可证，可在Hugging Face平台获取模型代码和权重。

Harness-1同时也是另一项努力的效验证明——由Thinking Machines开发的分布式、基于Web的AI模型训练和微调API”Tinker”。Tinker被专门用于训练和运行Harness-1的推理，突显了交互式基础设施如何积极赋能下一代自主模型。

基准测试解析

为了真正测试这些模型的表现，研究人员对Harness-1及其竞争对手在八项高度复杂的搜索基准上进行了评估。这些测试并非简单的问答，而是要求AI扮演真实研究者的角色，从多样化、密集的数据源中筛选信息。

基准测试涵盖多个领域，包括开放网络搜索、美国证券交易委员会(SEC)的复杂财务文件、美国专利商标局(USPTO)的技术专利数据库，以及”多跳”问答任务。在后者中，AI需要从多个不同文档中逻辑性地拼凑分散的线索，才能得出正确答案。

测试结果显示，Harness-1在成功查找和筛选正确事实的能力上，在开源竞争中占据主导地位。更令人印象深刻的是，这款相对较小的200亿参数模型与庞大昂贵的专有AI系统展开了有力竞争。它实际上超越了GPT-5.4、Sonnet-4.6和Kimi-K2.5等被视为拥有数千亿甚至数万亿参数的重量级模型。只有一款前沿大型模型——Opus-4.6——在总体平均表现上略微领先于Harness-1。

技术革新：环境中的智能记忆管理

Harness-1通过将搜索会话中繁琐的”记账”工作从模型的工作内存转移到结构化软件环境中，实现了性能提升。

随着企业用例变得越来越复杂，要求模型能够自主筛选数千份公司文件或财务报告，这些系统常常陷入”搜索遗忘症”——忘记原始查询、重复检索已被拒绝的文档，或失去对需要验证的具体主张的追踪。

直到现在，解决这种遗忘的主要方法是蛮力应对。工程师通常迫使模型不断重读自己行动的不断扩展、仅追加的记录，将每次搜索、阅读和思考都堆积到庞大的上下文窗口中。

Harness-1引入了这一方法的范式转变，证明真正人工智能自主能力的瓶颈不一定是模型的大小，而是其工作环境管理状态的效率。正如Anthropic的Claude Code所展示的那样，它再次强调了原始模型可能不如其运行所依赖的”工具集”或条件重要。

技术解析：环境中的文书工作

要理解Harness-1的技术飞跃，可以考虑一个现实世界的类比。

想象你雇佣了一位才华横溢的研究助理，却将他们置于一个没有桌子、笔记本或文件柜的空房间中。你要求他们就一个高度复杂的主题撰写一份全面的报告，这需要他们阅读数十本书，同时将每一个引文、引用和失败的搜索都完美地记在脑海中。最终，无论这位助理多么聪明，他们的认知负荷都会达到极限，开始遗漏事实或失去任务的线索。

这正是当今传统搜索智能体的运作方式。它们被训练为在增长记录上的策略，意味着模型搜索、阅读、再次搜索，并将所有内容都附加到自己的上下文窗口中。

正如伊利诺伊大学的主要研究员Patrick (Pengcheng) Jiang在X上所指出的：”在某个时刻，模型不仅仅是’搜索’，它还被要求成为一个记忆系统、记录员、验证者和图书管理员。”

Harness-1通过给AI一张书桌和一个文件柜解决了这个问题——研究团队称之为”状态外化工具集”。

这个工具集是一个活跃的周围环境，接管了日常的记账工作，维护着一个可恢复的工作内存，包括候选文档池、带重要性标记的精选证据集、紧凑的证据链接和验证记录。

通过将语义选择与结构状态管理分离，AI被解放出来去做它最擅长的事情。

策略仍然决定搜索什么、确定保留哪些文档，以及何时停止，而环境则仅负责维护状态。

训练Harness-1：数据效率的典范

Harness-1的训练流程代表了AI行业对智能体学习方法的一次根本转变。

传统上，开发者将搜索智能体视为在庞大且不断增长的记录上运行的策略，迫使强化学习(RL)算法同时优化语义推理和搜索状态的原始记忆。

Harness-1的创造者采取了截然不同的方法：由于他们的定制”工具集”处理了所有日常的记账工作——如维护证据链接、候选池和验证记录——训练过程只需要教会模型如何操作这个结构化接口。

这种分工极大地简化了底层200亿参数模型实际需要学习的内容。

过程始于一个相当狭窄的监督微调(SFT)阶段。团队没有刮取数PB的新行为数据，而是使用一个连接到学生模型最终将使用的相同工具集环境的GPT-5.4教师智能体，仅生成了899条过滤轨迹。

这一SFT阶段的目的不是向模型注入大量领域知识，而是简单地教会它优秀研究者的机械节奏：如何格式化工具调用、如何标记文档…

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/orchestration/researchers-trained-an-open-source-ai-search-agent-harness-1-that-outperforms-gpt-5-4-on-recalling-relevant-information

0 0

Harness-1开源智能体：信息检索能力超越GPT-5.4

性能突破：Harness-1的优势

基准测试解析

技术革新：环境中的智能记忆管理

技术解析：环境中的文书工作

训练Harness-1：数据效率的典范

评论列表

发表评论

为你推荐

近期文章

标签

近期评论

分类

热门文章