阿里巴巴Qwen-AgentWorld：预测环境而非行动的智能体训练

Mark Do 暂无评论阅读 70 次

Qwen-AgentWorld：预测环境响应而非行动的智能体训练

阿里巴巴Qwen团队于周二发布了Qwen-AgentWorld——这一创新模型并非在智能体环境中进行训练，而是专注于预测环境返回的结果。该发布涵盖七大领域，采用统一架构：MCP、搜索、终端、软件工程、Android、Web和操作系统。

这一发布延续了阿里巴巴近期对自主智能体的战略推进。今年五月发布的Qwen3.7-Max，以35小时的自主执行能力为核心构建。这种转变直接针对大规模训练智能体团队遇到的天花板问题。

真实搜索引擎会呈现所有存在的结果，无法注入受控条件；实时终端不允许按需注入低磁盘空间状态。智能体训练受限于生产环境所能展示的内容，缺乏系统性方法来暴露智能体需要处理但在训练中很少遇到的边缘情况。

研究团队在模拟器中训练智能体，发现性能提升超过了仅使用真实环境训练的效果。在另一项测试中，使用世界模型训练作为智能体微调前的预热，在七项基准测试中提升了性能，包括三项模型在训练中从未见过的测试。

该发布伴随的论文指出了先前智能体研究中的一个空白：”我们认为，世界建模是通往通用智能体道路上一个关键的缺失环节。”

环境响应预测：智能体训练的新范式

大多数智能体模型被训练回答一个问题：根据环境刚刚展示的内容，我下一步应该做什么？Qwen-AgentWorld则被训练回答相反的问题：根据智能体刚刚执行的操作，环境将展示什么内容？

这种反转构成了论文所称的语言世界模型的核心：不是优化行动选择，而是模型学习在单一训练目标下跨七个领域预测下一个环境状态。先前的研究范围较窄：Qwen团队二月份的WebWorld项目仅涵盖Web环境；同月发布的Snowflake智能体世界模型生成代码驱动的SQL支持环境，而非训练模型预测状态。Qwen-AgentWorld首次在单一模型中跨越七个领域，并在最早的预训练阶段就内置了环境建模。

阿里巴巴通过三个阶段在超过1000万条来自真实智能体运行的环境交互轨迹上训练了这两个模型。第一阶段教会模型环境的行为方式——文件系统、终端状态、浏览器DOM变化、API响应；第二阶段训练模型在预测前进行推理；第三阶段，通过强化学习，使用基于规则的检查和开放式质量评分来优化预测。

两个模型都采用专家混合设计——每个标记只有部分参数处于活跃状态。35B模型激活3B参数，397B模型激活17B参数。两者都支持256K上下文窗口。对于GUI领域（Android、Web和操作系统），模型基于文本可访问树和UI视图层次结构而非截图工作。

35B模型权重和AgentWorldBench在Apache 2.0许可下可用，397B权重未公开发布。

训练成果比基准测试更重要

基准测试分数展示了模型预测环境响应的准确度，而训练成果则展示了这种预测能力对构建智能体的团队的实际价值——这些才是更重要的数字。

据研究人员称，在受控模拟中训练的智能体表现优于在真实环境中训练的智能体。注入针对性扰动——部分响应迫使智能体执行额外步骤，以及真实环境很少出现的边缘情况——将MCPMark从24.6提升到33.8。在搜索领域，完全虚构世界中训练的智能体能够迁移到真实搜索任务，使35B开源模型的WideSearch F1 Item从34.02提升到50.31。另一项预热测试显示，世界模型预训练使BFCL v4从62.29提升到71.25，Claw-Eval从53.60提升到64.88，无需任何智能体特定微调。

研究人员警告基准测试风险与过度拟合隐患

该论文立即引发了X平台上AI研究人员的反应。他们提出的问题关系到实践者在采纳研究结果前需要验证的内容。

关于训练目标和迁移结果，一位AI/ML研究人员的评价直接明了：”其他所有’智能体’模型都训练为在环境中行动，”拥有博士学位并经常分析AI论文的@drawais_ai写道，”Qwen翻转了这个问题。他们训练模型预测环境本身…这种预测知识即使没有智能体特定微调也能迁移到智能体任务。”他将可控模拟强化学习结果视为”证明”合成训练可以大规模替代真实环境强化学习的依据，并指出七项迁移基准测试中有三项完全超出领域范围。

基准测试差距立即受到严格审视。”AgentWorldBench是阿里巴巴在同一篇论文中构建和发布的基准测试，”专注于AI研究中诚实观点和关键数字的@TheSignal_Desk写道，”他们设计了测试，然后以0.46分的优势超越了自己的测试。”

模拟强化学习方法论是构建生产AI智能体的@limalemonnn认为最需要审查的部分，他指出了在引用标题主张前需要仔细审视的内容：”模拟训练的智能体传统上会过度拟合到模拟器的特殊性质，”他写道，”如果世界模型过于完美，智能体学习的是模型而非任务。”他建议实践者在基于数字采取行动前，应仔细阅读论文中的保留分割部分。

数据中部分回应了过度拟合的担忧。不受控模拟强化学习（MCPMark 24.6）与受控模拟强化学习（MCPMark 33.8）之间的差距表明，提升在很大程度上取决于可控性机制，而非仅靠模拟准确性。虚构世界搜索结果——在发明的环境中训练的智能体能够迁移到真实搜索任务——是论文反对过度拟合担忧的最有力证据。