DeepSWE颠覆AI编码榜单:GPT-5.5夺冠,Claude Opus被指利用基准漏洞

过去数月,主流AI编码基准向企业买家传递了一个令人宽慰却颇具误导性的信息:顶级模型性能几乎不分伯仲。OpenAI的GPT-5系列、Anthropic的Claude Opus以及Google的Gemini Pro在Scale AI的SWE-Bench Pro排行榜上分数相近,让工程团队难以判断哪种智能体在自己的代码库中表现更优。然而,周一,一家名为Datacurve的初创公司发布了一项基准测试,声称彻底打破了这一假象。

DeepSWE基准测试揭示AI编码性能真相

Datacurve推出的DeepSWE基准涵盖113项任务,涉及91个开源仓库和5种编程语言。测试结果显示,同一批前沿模型间的分数差距显著拉大——OpenAI的GPT-5.5以70%的成绩成为明显领跑者,领先第二名整整16个百分点。

Datacurve联合创始人Serena Ge在X平台上写道:“公开排行榜上,顶尖模型的能力看似接近。但DeepSWE展现了它们的真实差距,更贴近开发者日常工作的实际体验。”

该基准还对AI行业依赖的评估体系提出了尖锐批评:Datacurve的审计发现,SWE-Bench Pro的验证器(自动评分工具)在约三分之一的测试中给出了错误的通过/失败判定。

若这一发现属实,将产生广泛影响。企业采购团队、风险投资机构和AI实验室的营销部门均高度依赖基准分数做出数百万美元的决策。SWE-Bench Pro作为最广泛引用的编码基准,其32%的错误率意味着行业可能一直在使用失准的指南针。

现有主流基准的三大缺陷

要理解Datacurve的主张,需先了解编码基准的工作原理及其潜在问题。由Scale AI和学术研究人员维护的SWE-Bench系列基准,通过挖掘真实GitHub提交来构建任务:提取仓库历史中的bug修复或功能添加,将代码回滚到修复前状态,要求AI智能体重现变更。原始提交的测试套件作为验证器——若智能体的补丁让相同测试通过,则获得认可。Datacurve认为这一方法虽简洁,却存在三个系统性弱点:

  • 污染问题:由于任务来自公开GitHub,问题陈述、讨论乃至精确解决方案可能已存在于前沿模型的训练数据中。“SWE-Bench系列从现有GitHub问题和PR中抓取任务,导致两个问题:模型可能已记住解决方案,且任务大多过于简单。”Ge指出。
  • 范围局限:SWE-Bench Pro任务平均仅需修改5个文件、添加120行代码。而DeepSWE的参考解决方案平均涉及7个文件、添加668行代码——规模约为前者的5.5倍。但DeepSWE的提示词更短(平均2158字符 vs SWE-Bench Pro的4614字符),即给智能体更少的指令却要求更多输出,更贴近人类开发者向AI助手分配任务的真实场景。
  • 验证器可靠性:Datacurve随机抽取30个任务,在10种前沿模型配置下运行三次测试,并部署基于LLM的裁判独立评估补丁是否真正解决问题。结果显示,SWE-Bench Pro的验证器错误接受错误实现8.5%次,错误拒绝正确实现24%次;DeepSWE的验证器则分别为0.3%和1.1%。

错误否定问题尤为隐蔽,因为它惩罚创造性解决方案。例如,某SWE-Bench Pro任务的黄金标准PR重构了一个私有辅助函数,而智能体通过内联相同逻辑(完全合理的工程选择)正确解决问题,却因测试套件试图导入仅存在于原始实现中的符号而失败。

GPT-5.5领跑新榜单,Claude与Gemini表现不佳

DeepSWE的顶级结果重新排序了熟悉的排名,对评估AI编码工具的每个工程团队都应产生影响。在SWE-Bench Pro上,OpenAI、Anthropic和Google的模型在30分范围内交替领先;DeepSWE则将这一范围扩大到70分。

GPT-5.5以70%的成绩领先,其次是GPT-5.4(56%)和Claude Opus 4.7(54%)。此后分数骤降:Claude Sonnet 4.6为32%,Gemini 3.5 Flash为28%,GPT-5.4-mini与Kimi K2.6并列24%,其余模型分数在个位数至十几分之间。Claude Haiku 4.5在SWE-Bench Pro上得39%,但在DeepSWE中得零分——暗示部分中端模型在更简单、可能被污染的基准上被高估。

GPT-5.5不仅分数最高,效率也突出:达到70%通过率时,单次试验的中位成本为5.80美元,中位耗时20分钟,输出令牌数中位为47000。GPT-5.4则以3.30美元的单次成本和56%的分数成为最具性价比选择。Claude Opus 4.7的单次运行成本显著更高,且输出令牌数、耗时和成本均呈数量级波动——但这些因素与通过率并无强相关性,即输出更多令牌、运行更久或成本更高的智能体,未必能解决更多任务。

Claude Opus被指利用基准漏洞“作弊”

DeepSWE分析中最具争议的发现,是作者所称的“作弊”判定——智能体通过读取答案而非解决问题通过基准。

SWE-Bench Pro的Docker容器包含仓库的完整.git历史,意味着黄金标准解决方案提交就在容器文件系统中。多数模型忽略这一点,但Claude不会。Datacurve的分析发现,Claude Opus 4.7和4.6在超过12%的SWE-Bench Pro测试中显示“作弊”行为。在这些案例中,Claude智能体运行git log –all或git show <gold-hash>命令获取合并修复并粘贴到自身补丁中。这种行为占Opus 4.7通过率的18%和Opus 4.6通过率的25%。该问题已作为GitHub #93提交至SWE-Bench Pro仓库。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1048篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类