微博3B模型媲美巨头,基准测试再遭质疑

微博3B模型媲美巨头,基准测试再遭质疑

小模型引发大震动

上周日,以微博平台闻名而非尖端人工智能技术著称的中国社交媒体巨头新浪微博,其麾下的一支九人研究团队在 arXiv 上悄然发布了一份长达14页的技术报告,瞬间在AI研究界引发了剧烈震荡。该团队声称,一款仅拥有30亿参数的语言模型,其推理性能竟能比肩甚至超越谷歌 DeepMind、OpenAI、Anthropic 以及 DeepSeek 等巨头的旗舰系统,而这些系统的参数规模通常是它的数百倍。

这款名为 VibeThinker-3B 的模型在极具挑战性的数学竞赛——美国邀请数学考试(AIME 2026)中斩获了 94.3 分。这一成绩将其与拥有 6710 亿参数的 DeepSeek V3.2 并列,甚至超过了谷歌高性能旗舰推理系统 Gemini 3 Pro(得分 91.7)。更令人惊叹的是,配合该团队研发的“主张级可靠性评估”测试时扩展技术,其分数更是攀升至 97.1 分,几乎超越了所有公开记录中的系统。

报告发布数小时内,该论文在 Hugging Face 每日论文榜上获得了 62 个点赞,模型仓库积累了 130 个赞,GitHub 仓库更是收获了 685 颗星。然而,社交媒体上的反应并非一片叫好,在许多情况下,人们表现出了深深的怀疑。

“AI 究竟发生了什么?”用户 @orcus108 在 X 上发帖问道,该帖浏览量迅速超过 16.1 万。“一个 30 亿参数的模型在编码基准测试中的得分竟然能与 Claude Opus 4.5 处于同一梯队……我真的不知道这是技术突破,还是基准测试本身已经坏掉了。”

这种张力——即真正的科学进步与日益增长的怀疑(认为 AI 基准测试已被玩弄到毫无意义的地步)之间的矛盾——正是 VibeThinker-3B 事件的核心。这一答案至关重要,它不仅关乎学术声誉,更涉及一个价值数十亿美元的问题:AI 行业对追求越来越大模型的执着,是否通向智能的唯一路径?

违背现代 AI 缩放定律的基准成绩

按照任何传统标准来看,该技术报告中报告的结果都堪称非凡。

在数学方面,VibeThinker-3B 展现了惊人的实力:

  • AIME 2025: 得分 91.4
  • AIME 2026: 得分 94.3
  • HMMT 2025(哈佛-麻省理工数学锦标赛): 得分 89.3
  • BruMO 2025(布朗大学数学奥林匹克): 得分 93.8
  • IMO-AnswerBench(国际奥数水平): 得分 76.4

在编程领域,该模型在旨在测试可执行代码生成的 LiveCodeBench v6 上取得了 80.2 的 Pass@1 分数;在 2026 年 4 月下旬至 5 月下旬的未见过 LeetCode 每周和双周竞赛中,达到了 96.1% 的通过率。在指令遵循方面,它在 IFEval 上获得了 93.4 分。

为了直观感受参数量的差异:DeepSeek V3.2 拥有 6710 亿参数——大约是 VibeThinker-3B 的 224 倍。智谱 AI 的 GLM-5 拥有 7440 亿参数,月之暗面的 Kimi K2.5 参数量更是超过了 1 万亿。相比之下,VibeThinker-3B 的 30 亿参数体量小到可以在消费级笔记本电脑上运行。

研究人员并未将此结果视为异常,而是将其作为更广泛理论主张的证据。他们提出了“参数压缩-覆盖假设”,认为不同类型的 AI 能力与模型规模有着根本不同的关系。可验证推理——即通过数学竞赛和编程挑战测试的那类,其答案可以被明确检查——在论文中被称为“参数密集型”能力:这种能力可以被压缩进一个紧凑的核心。相比之下,开放域知识则是“参数扩展型”的,需要覆盖广泛的事实、概念和边缘情况,这本质上需要更多的参数。

论文也直接承认了这种区别。在研究生级别的科学知识基准 GPQA-Diamond 上,VibeThinker-3B 仅得分 70.2,远低于 Gemini 3 Pro 的 91.9 和 Claude Opus 4.5 的 87.0。作者写道,这种差距“与我们的主张一致而非矛盾:主要发现并非 3B 模型已完全取代领先的通用模型,而是小模型可以在许多可验证推理任务上达到一流性能。”

驱动微型推理引擎的四阶段训练管道

VibeThinker-3B 并非从零开始构建。它是基于阿里巴巴 Qwen 团队的紧凑基础模型 Qwen2.5-Coder-3B 进行后训练而成的,采用了微博 AI 研究人员称为“频谱至信号原则”的方法——这是一个多阶段管道,最早于 2025 年 11 月在该团队早期的 VibeThinker-1.5B 工作中引入。

训练过程主要分为四个阶段。第一阶段是两阶段的监督微调过程,采用了课程学习:模型首先在数学、代码、STEM 推理、通用对话和指令遵循数据的广泛混合集上训练,随后转向经过策划的、更困难、长周期的推理问题子集。在第二阶段,推理轨迹短于 5000 个 token 的样本被丢弃,同时过滤掉 VibeThinker-1.5B 解决率超过 75% 的问题,迫使模型专注于真正具有挑战性的难题。

第二阶段应用了跨多个领域(数学、代码和 STEM)的强化学习,使用了团队自主研发的最大熵引导策略优化算法(MGPO)。该算法优先在模型当前能力边界的问题上进行训练,而非那些它已轻松解决或无法解决的问题。值得注意的是,团队发现在 1.5B 规模下效果良好的策略——在 RL 训练期间逐步扩展上下文窗口——在 3B 规模下实际上损害了性能。他们推测,更强的起始检查点意味着截断推理轨迹……


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/why-weibos-tiny-vibethinker-3b-has-the-ai-world-arguing-over-benchmarks-again

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1543篇


关注微信

分类