MiniMax M3模型预告：稀疏注意力机制实现15.6倍长上下文速度突破

在众多争夺全球市场份额的中国AI公司中，MiniMax以其前沿的多模态AI能力脱颖而出，涵盖文本、编码和视频（通过其Hailuo模型系列），并采用宽松的企业友好型开源许可。如今，MiniMax通过发布关于其流行M2系列语言模型（M2、M2.5和M2.7）的详细技术报告，再次引发全球AI专家和开发者的关注。报告中揭示了众多工程创新，同时公司领导层也预告了 upcoming MiniMax M3系列模型的新稀疏注意力方法。据称，该方法在长上下文（百万token）场景下可将解码速度提升高达15.6倍，采用定制子二次方框架，使超长上下文智能体部署更具经济可行性。

这份M2报告对企业AI应用极具价值，尤其是那些计划微调或训练自有模型的机构。毕竟，MiniMax的M2系列在发布时曾创下全球开源AI性能的顶尖基准。尽管后来被DeepSeek、小米等中国实验室超越，但新报告为全球企业改进AI模型和智能体性能提供了蓝图。

正如Hugging Face的Adina Yakup在X上评论：“除了基准测试，他们在MoE效率和智能体导向设计上做了扎实工作。期待M3的下一步发展！”

注意力机制的困境

M2系列的核心架构基于稀疏MoE（Mixture-of-Experts）解码器Transformer布局，与众多顶尖LLM一致。

其基础架构拥有229.9B总参数，但通过在256个细粒度专家中仅激活9.8B参数每token，维持了精简的运行足迹。

为优化路由并避免标准负载平衡问题，MiniMax实施了sigmoid门控结合可学习的专家特定偏置项，大幅减少对限制性辅助损失的依赖。

技术报告中记录的最关键工程决策是，在所有62层中严格采用全多头注意力与分组查询注意力（GQA）。

在大语言模型中，“二次方缩放”指标准全注意力机制的高计算成本——每个token必须与其他所有token建立数学连接。用现实类比，这就像在社交活动中被迫与房间里的每个人深入交谈，同时监控所有其他对话。

尽管这种方法提供了极其全面的上下文，但所需的处理能力和内存随输入长度的平方爆炸，导致硬件瓶颈，模型难以处理数十万单词。

子二次方缩放的难题

“子二次方”缩放引入架构捷径，旨在绕过指数级计算负载。例如滑动窗口注意力或压缩线性注意力等方法，可能仅分析局部窗口或生成文本摘要。

这些高效方法大幅降低硬件成本，允许模型高速处理海量文档，但历史上会严重牺牲准确性，导致AI忽略“大局”或丢失远程上下文。

这一数学困境定义了MiniMax从M2到M3系列的架构演进。在M2开发中，研究人员严格测试子二次方捷径，但发现其严重损害模型的“多跳推理”能力——即连接长文档中分散线索的能力，迫使团队承担全二次方注意力的巨大计算成本以保持前沿智能。

他们确实在预训练中广泛测试了高效注意力替代方案，但最终弃用。他们实验了混合配置，将全注意力与子二次方架构（如Lightning Attention或混合滑动窗口注意力）交错。

实证结果明确：在更大规模下，线性和窗口注意力变体表现出严重的推理缺陷。

在超过32K上下文窗口的评估中，滑动窗口变体表现显著差于全注意力，在RULER 128K复杂词提取任务中从90.0降至72.0。
子二次方配置在训练中易受内存限制，缺乏原生前缀缓存支持，且无法与推测解码的多token预测（MTP）模块平滑对齐。

全注意力被认定为保持多跳推理能力的必要条件。

然而，认识到硬件限制无法无限支持二次方缩放，MiniMax正在为M3系列设计新型子二次方框架，以实现高速处理与无妥协推理的平衡。

MiniMax稀疏注意力（MSA）与子二次方缩放即将登场

即将推出的MiniMax-M3摆脱了前代的计算约束。据MiniMax工程团队在“Something BIG is coming”公告中披露，M3引入了“MiniMax稀疏注意力”（MSA）。

与DeepSeek的多头潜在注意力（MLA）不同——后者将键和值压缩到低维潜在空间，MSA基于标准GQA，但使用块级选择在真实、未压缩的键值上操作。

Prime Intellect的AI训练基础设施实验室Elie Bakouch在X上发帖指出：“主要变化是块级选择，类似CSA，但注意力在真实KV上而非[压缩空间]进行。”

这解决了M2报告中注意的精度损失和前缀缓存障碍。通过动态过滤和选择块级序列，MSA实现架构飞跃：早期硬件分析显示，预填充延迟提升9.7倍，解码阶段在100万token序列长度下提升高达15.6倍，对比全注意力M2架构。

要理解“解码阶段”速度提升的意义，需分解AI如何读写信息。与AI交互时，处理分两步：预

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/technology/minimax-teases-upcoming-m3-model-with-new-sparse-attention-mechanism-and-15-6x-response-speed-boost

0 0

MiniMax M3模型预告：稀疏注意力机制实现15.6倍长上下文速度突破

注意力机制的困境

子二次方缩放的难题

MiniMax稀疏注意力（MSA）与子二次方缩放即将登场

评论列表

发表评论

为你推荐

近期文章

标签

近期评论

分类

热门文章