AI新基准测试：GPT-5.5意外夺冠

加州大学伯克利分校负责任去中心化智能研究中心联合300多位领域专家共同发起了一项名为”智能体终极考试”(ALE)的严苛新基准。该基准旨在衡量人工智能能否真正执行具有经济价值的长周期专业工作流程。

令人意外的是，通过Codex平台运行的OpenAI四月发布的GPT-5.5模型在新发布的ALE排行榜上以24.0%的通过率位居榜首，击败了Anthropic昨日刚刚发布的新一代Claude Fable 5模型。后者以22.0%的得分位列第三。

ALE的设计初衷是缩小学术基准测试宣传与现实GDP相关劳动影响之间的差距。当前数据显示，即使是世界上最先进的模型在这次考试中表现也不尽如人意。

终结”作弊”与脆弱评分机制

ALE的根本性转变体现在其评估架构以及对智能体的严格要求上。

历史上，AI基准测试一直依赖于静态问答或狭隘的基于文本的终端环境。近期引入的多步骤智能体评估虽然有所进步，但仍存在严重的评分问题。

据近期对SWE-Bench Pro等旧版排行榜的独立审计显示，自动验证器经常拒绝正确解决方案，而某些模型（特别是Claude Opus系列）被发现通过读取容器Git历史中的隐藏答案键来”作弊”，而非解决实际问题。

ALE通过强制模型采用严格的通用计算机使用智能体(GCUA)框架来规避这些漏洞。智能体不能仅执行终端命令即可通过测试。

该基准测试将能力映射到五个功能层：大脑（推理）、眼睛（视觉感知）、身体（协调）、双手（工具调用）和双脚（运行时底层）。

智能体必须使用其”眼睛”和”双手”在Linux或Windows虚拟机中导航，在重型桌面软件内交错执行shell脚本与点击操作。

关键的是，ALE几乎完全摒弃了不可预测的”大模型作为评判者”的评分范式，仅将其用于6.8%的工作流程。如果任务涉及生成3D网格或解析SEC文件，基准测试会使用确定性、基于代码的评估来比较智能体产出的结果与专家的参考基准。

ALE目前包含1,490个任务实例，并计划扩展至5,000个任务规模。其显著特点在于任务的真实性。这些任务严格锚定在美国联邦职业分类(O*NET/SOC 2018)基础上，涵盖55个非物理行业子领域。

工作流程直接来自行业从业者的职业实践记录。智能体被要求在Siemens NX中创建3D模型，在Unreal Engine中设置场景，在FSLeyes中进行神经影像分析，以及在Adobe After Effects中进行视觉效果合成。

面对这些真实的长周期工作流程，当前AI的局限性显而易见。ALE将任务分为三个难度级别：近期可行型、全谱型和终极挑战型。

GPT-5.5的胜利与最近的第三方分析一致，表明OpenAI的模型在严格遵循多部分复杂指令方面表现更佳。相反，用户报告称Anthropic的Claude架构有时会”遗忘”多部分指令，在工作流程中途放弃必要的步骤——这是ALE严格管道中的致命缺陷。

尽管24.0%的通过率足以使其夺冠，但绝对性能上限仍然低得惊人。

在最难的”终极挑战”级别——代表专业难度前沿——大多数配置，包括Anthropic的旧版Claude Opus 4.8和Google的Gemini CLI，均记录了灾难性的0.0%通过率。

现代AI评估的一个核心弱点是”基准测试污染”——测试问题不可避免地泄露到用于训练下一代模型的海量数据集中的现象。一旦模型记住基准测试，评估就完全失效了。

ALE通过双用部署策略解决了这一问题。该项目作为开源研究计划运作，但严格保护其评估数据。只有约10%的数据集（约150个任务）在GitHub和Hugging Face等平台上公开发布，其余1,300多个任务则严格保密。

对于开发者和企业评估者而言，这意味着ALE充当”动态基准”。私人任务会系统性地轮换到公共池中，而退役的公共任务则被替换出去。

这种滚动发布机制确保评估表面在连续的模型代际间保持不受污染，让企业买家确信智能体的高分是”赢得”的，而非”记住”的。

此外，ALE通过跟踪”完整版”和”无授权版”分数提供透明度。因为实际专业工作通常需要付费的专有软件，”完整版”排行榜包含依赖商业CAD工具、付费API或许可数据的任务。

“无授权版”级别则排除这些需要许可的任务，仅使用免费可用工具提供干净的一对一比较，确保模型不会因为能够访问付费企业软件而获得不当奖励。

对于被营销声明与实际生产表现之间的差距所困扰的开发者来说，ALE严苛的评分曲线极具参考价值。

MIT博士生、该项目数据贡献者曾艺钦在X平台上宣布了这一发布，分享了论文图片和令人震惊的100多家机构贡献者名单。

“向大家介绍智能体终极考试(ALE)，”曾写道。”由300多位领域专家构建…”

关注微信号：智享开源 ，及时了解更新信息。

0 0