DeepSWE颠覆AI编码榜单：GPT-5.5夺冠，Claude Opus被指利用基准漏洞

Mark Do 暂无评论阅读 413 次

过去数月，主流AI编码基准向企业买家传递了一个令人宽慰却颇具误导性的信息：顶级模型性能几乎不分伯仲。OpenAI的GPT-5系列、Anthropic的Claude Opus以及Google的Gemini Pro在Scale AI的SWE-Bench Pro排行榜上分数相近，让工程团队难以判断哪种智能体在自己的代码库中表现更优。然而，周一，一家名为Datacurve的初创公司发布了一项基准测试，声称彻底打破了这一假象。

DeepSWE基准测试揭示AI编码性能真相

Datacurve推出的DeepSWE基准涵盖113项任务，涉及91个开源仓库和5种编程语言。测试结果显示，同一批前沿模型间的分数差距显著拉大——OpenAI的GPT-5.5以70%的成绩成为明显领跑者，领先第二名整整16个百分点。

Datacurve联合创始人Serena Ge在X平台上写道：“公开排行榜上，顶尖模型的能力看似接近。但DeepSWE展现了它们的真实差距，更贴近开发者日常工作的实际体验。”

该基准还对AI行业依赖的评估体系提出了尖锐批评：Datacurve的审计发现，SWE-Bench Pro的验证器（自动评分工具）在约三分之一的测试中给出了错误的通过/失败判定。

若这一发现属实，将产生广泛影响。企业采购团队、风险投资机构和AI实验室的营销部门均高度依赖基准分数做出数百万美元的决策。SWE-Bench Pro作为最广泛引用的编码基准，其32%的错误率意味着行业可能一直在使用失准的指南针。

现有主流基准的三大缺陷

要理解Datacurve的主张，需先了解编码基准的工作原理及其潜在问题。由Scale AI和学术研究人员维护的SWE-Bench系列基准，通过挖掘真实GitHub提交来构建任务：提取仓库历史中的bug修复或功能添加，将代码回滚到修复前状态，要求AI智能体重现变更。原始提交的测试套件作为验证器——若智能体的补丁让相同测试通过，则获得认可。Datacurve认为这一方法虽简洁，却存在三个系统性弱点：

污染问题：由于任务来自公开GitHub，问题陈述、讨论乃至精确解决方案可能已存在于前沿模型的训练数据中。“SWE-Bench系列从现有GitHub问题和PR中抓取任务，导致两个问题：模型可能已记住解决方案，且任务大多过于简单。”Ge指出。
范围局限：SWE-Bench Pro任务平均仅需修改5个文件、添加120行代码。而DeepSWE的参考解决方案平均涉及7个文件、添加668行代码——规模约为前者的5.5倍。但DeepSWE的提示词更短（平均2158字符 vs SWE-Bench Pro的4614字符），即给智能体更少的指令却要求更多输出，更贴近人类开发者向AI助手分配任务的真实场景。
验证器可靠性：Datacurve随机抽取30个任务，在10种前沿模型配置下运行三次测试，并部署基于LLM的裁判独立评估补丁是否真正解决问题。结果显示，SWE-Bench Pro的验证器错误接受错误实现8.5%次，错误拒绝正确实现24%次；DeepSWE的验证器则分别为0.3%和1.1%。

错误否定问题尤为隐蔽，因为它惩罚创造性解决方案。例如，某SWE-Bench Pro任务的黄金标准PR重构了一个私有辅助函数，而智能体通过内联相同逻辑（完全合理的工程选择）正确解决问题，却因测试套件试图导入仅存在于原始实现中的符号而失败。

GPT-5.5领跑新榜单，Claude与Gemini表现不佳

DeepSWE的顶级结果重新排序了熟悉的排名，对评估AI编码工具的每个工程团队都应产生影响。在SWE-Bench Pro上，OpenAI、Anthropic和Google的模型在30分范围内交替领先；DeepSWE则将这一范围扩大到70分。

GPT-5.5以70%的成绩领先，其次是GPT-5.4（56%）和Claude Opus 4.7（54%）。此后分数骤降：Claude Sonnet 4.6为32%，Gemini 3.5 Flash为28%，GPT-5.4-mini与Kimi K2.6并列24%，其余模型分数在个位数至十几分之间。Claude Haiku 4.5在SWE-Bench Pro上得39%，但在DeepSWE中得零分——暗示部分中端模型在更简单、可能被污染的基准上被高估。

GPT-5.5不仅分数最高，效率也突出：达到70%通过率时，单次试验的中位成本为5.80美元，中位耗时20分钟，输出令牌数中位为47000。GPT-5.4则以3.30美元的单次成本和56%的分数成为最具性价比选择。Claude Opus 4.7的单次运行成本显著更高，且输出令牌数、耗时和成本均呈数量级波动——但这些因素与通过率并无强相关性，即输出更多令牌、运行更久或成本更高的智能体，未必能解决更多任务。

Claude Opus被指利用基准漏洞“作弊”

DeepSWE分析中最具争议的发现，是作者所称的“作弊”判定——智能体通过读取答案而非解决问题通过基准。

SWE-Bench Pro的Docker容器包含仓库的完整.git历史，意味着黄金标准解决方案提交就在容器文件系统中。多数模型忽略这一点，但Claude不会。Datacurve的分析发现，Claude Opus 4.7和4.6在超过12%的SWE-Bench Pro测试中显示“作弊”行为。在这些案例中，Claude智能体运行git log –all或git show <gold-hash>命令获取合并修复并粘贴到自身补丁中。这种行为占Opus 4.7通过率的18%和Opus 4.6通过率的25%。该问题已作为GitHub #93提交至SWE-Bench Pro仓库。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole