MiniMax M3模型预告:稀疏注意力机制实现15.6倍长上下文速度突破

在众多争夺全球市场份额的中国AI公司中,MiniMax以其前沿的多模态AI能力脱颖而出,涵盖文本、编码和视频(通过其Hailuo模型系列),并采用宽松的企业友好型开源许可。如今,MiniMax通过发布关于其流行M2系列语言模型(M2、M2.5和M2.7)的详细技术报告,再次引发全球AI专家和开发者的关注。报告中揭示了众多工程创新,同时公司领导层也预告了 upcoming MiniMax M3系列模型的新稀疏注意力方法。据称,该方法在长上下文(百万token)场景下可将解码速度提升高达15.6倍,采用定制子二次方框架,使超长上下文智能体部署更具经济可行性。
这份M2报告对企业AI应用极具价值,尤其是那些计划微调或训练自有模型的机构。毕竟,MiniMax的M2系列在发布时曾创下全球开源AI性能的顶尖基准。尽管后来被DeepSeek、小米等中国实验室超越,但新报告为全球企业改进AI模型和智能体性能提供了蓝图。
正如Hugging Face的Adina Yakup在X上评论:“除了基准测试,他们在MoE效率和智能体导向设计上做了扎实工作。期待M3的下一步发展!”
注意力机制的困境
M2系列的核心架构基于稀疏MoE(Mixture-of-Experts)解码器Transformer布局,与众多顶尖LLM一致。
其基础架构拥有229.9B总参数,但通过在256个细粒度专家中仅激活9.8B参数每token,维持了精简的运行足迹。
为优化路由并避免标准负载平衡问题,MiniMax实施了sigmoid门控结合可学习的专家特定偏置项,大幅减少对限制性辅助损失的依赖。
技术报告中记录的最关键工程决策是,在所有62层中严格采用全多头注意力与分组查询注意力(GQA)。
在大语言模型中,“二次方缩放”指标准全注意力机制的高计算成本——每个token必须与其他所有token建立数学连接。用现实类比,这就像在社交活动中被迫与房间里的每个人深入交谈,同时监控所有其他对话。
尽管这种方法提供了极其全面的上下文,但所需的处理能力和内存随输入长度的平方爆炸,导致硬件瓶颈,模型难以处理数十万单词。
子二次方缩放的难题
“子二次方”缩放引入架构捷径,旨在绕过指数级计算负载。例如滑动窗口注意力或压缩线性注意力等方法,可能仅分析局部窗口或生成文本摘要。
这些高效方法大幅降低硬件成本,允许模型高速处理海量文档,但历史上会严重牺牲准确性,导致AI忽略“大局”或丢失远程上下文。
这一数学困境定义了MiniMax从M2到M3系列的架构演进。在M2开发中,研究人员严格测试子二次方捷径,但发现其严重损害模型的“多跳推理”能力——即连接长文档中分散线索的能力,迫使团队承担全二次方注意力的巨大计算成本以保持前沿智能。
他们确实在预训练中广泛测试了高效注意力替代方案,但最终弃用。他们实验了混合配置,将全注意力与子二次方架构(如Lightning Attention或混合滑动窗口注意力)交错。
实证结果明确:在更大规模下,线性和窗口注意力变体表现出严重的推理缺陷。
- 在超过32K上下文窗口的评估中,滑动窗口变体表现显著差于全注意力,在RULER 128K复杂词提取任务中从90.0降至72.0。
- 子二次方配置在训练中易受内存限制,缺乏原生前缀缓存支持,且无法与推测解码的多token预测(MTP)模块平滑对齐。
全注意力被认定为保持多跳推理能力的必要条件。
然而,认识到硬件限制无法无限支持二次方缩放,MiniMax正在为M3系列设计新型子二次方框架,以实现高速处理与无妥协推理的平衡。
MiniMax稀疏注意力(MSA)与子二次方缩放即将登场
即将推出的MiniMax-M3摆脱了前代的计算约束。据MiniMax工程团队在“Something BIG is coming”公告中披露,M3引入了“MiniMax稀疏注意力”(MSA)。
与DeepSeek的多头潜在注意力(MLA)不同——后者将键和值压缩到低维潜在空间,MSA基于标准GQA,但使用块级选择在真实、未压缩的键值上操作。
Prime Intellect的AI训练基础设施实验室Elie Bakouch在X上发帖指出:“主要变化是块级选择,类似CSA,但注意力在真实KV上而非[压缩空间]进行。”
这解决了M2报告中注意的精度损失和前缀缓存障碍。通过动态过滤和选择块级序列,MSA实现架构飞跃:早期硬件分析显示,预填充延迟提升9.7倍,解码阶段在100万token序列长度下提升高达15.6倍,对比全注意力M2架构。
要理解“解码阶段”速度提升的意义,需分解AI如何读写信息。与AI交互时,处理分两步:预
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!