深度｜MiniMax M2为何坚持“落后”的Full Attention？预训练负责人揭秘Efficient路线远比想象中艰难_生活快讯

深度｜MiniMax M2为何坚持“落后”的Full Attention？预训练负责人揭秘Efficient路线远比想象中艰难

创始人

2025-11-10 22:20:42

自 MiniMax M2 发布以来，全球开发者社区的热度持续攀升。短短几天内，M2 便跃升为 OpenRouter 全球调用量前三、HuggingFace Trending 榜单第一的模型，并成为 OpenRouter 上首个日 Token 消耗量突破 500 亿的中国模型。

然而，当 M2 被迅速推上聚光灯后，一个问题也随之浮出水面：在整个行业几乎一致押注 Efficient Attention的当下，为什么 MiniMax 却选择了看似“保守”的 Full Attention路线？

不久前，M2 的预训练负责人孙昊海用一篇长文回应了这些质疑，把他们过去一两年在结构探索、评测体系、基建改造上的经历摊开给社区看。

本文会试图顺着那篇原文，梳理清楚这件事的前因后果。在今天的工业级 LLM 语境里，“效率”到底意味着什么，“结构创新”究竟卡在了哪里。

风口上的 Efficient Attention 与 M2 的逆行

先看大背景。

过去两年，大模型的叙事从“能不能对话”一路走到“能不能长文本、能不能便宜、能不能全天候跑在线上”。长上下文、Agent、多模态、代码与数学推理这些场景不断堆叠，大家很快发现一个残酷事实。

算力永远不够用。

在这样的压力下，Efficient Attention 自然而然成为风口：Linear Attention 用结构改写复杂度公式，Sparse Attention 用稀疏模式节省算力，Hybrid 架构试图两头兼顾——在论文和小规模实验里，它们都给出了足够动人的故事。

于是，当 MiniMax M2 宣布核心架构回到 Full Attention 时，质疑声几乎是本能反应：

在一个“人人都在讲效率”的时代，为什么有人选择“走回头路”？

在论文的世界里，一个 Attention 结构的好坏，往往可以通过一组 benchmark 或复杂度公式来讲清楚；但在一个真实的大模型产品里，Attention 只是整个链路中的一环，而且是被 Code / Math、多轮对话、Agent 编排、多模态输入、长链思维、RL 调优、低精度推理、Speculative Decoding、在线 cache 等一整套系统约束“夹击”的那一环。

换句话说，结构设计已经从一个“数学题”，变成了一个“系统工程题”。原文反复强调的一点是，工业系统里，所有结构创新最终都要接受三件事的拷问：

效果——各种任务上的综合表现，尤其是复杂推理与真实业务场景；
速度——线上 TPS，是否能支撑规模化 Agent、工具调用与多模态交互；
价格——综合训练 + 推理算力成本下，能否给用户足够有竞争力的报价。

在这个框架下，看 Efficient Attention 的问题就变了味。它不再是“能否把复杂度从 O(n²) 变成 O(n)”这么简单，而是：在真实业务负载和工程约束下，它是否真的有“性价比”？

原文的回答非常坦诚：就当前阶段来看，Efficient Attention 离这个目标还有明显距离。

评测体系的失真：榜单刷满分，不等于结构正确

过去几年，MMLU、BBH、Math、LongBench 等榜单不断涌现，每一个诞生之初，都声称更接近“真实能力”；但事实证明：只要一个榜单足够流行，就一定有人“把它刷爆”。

对结构创新来说，这会带来一个极危险的假象。

在小模型规模、有限 benchmark 上，某种 Linear / Hybrid Attention 可能表现得完美无缺，甚至看起来“完全不输 Full Attention”；但当模型规模拉大、场景变复杂，尤其是落到多跳推理、复杂 Agent 任务和极端长上下文时，问题才会慢慢浮出水面——而那时，训练成本已经砸下去了。

原文举了一个典型经验。在早期的 MiniMax-Text-01 阶段，一套 Hybrid 架构在当时主流榜单上表现很好，看起来似乎“找到了免费午餐”；然而当规模扩展之后，复杂多跳推理任务出现了肉眼可见的缺陷，逼得团队不得不重做代理指标、重建评测链路。

更棘手的是，指标本身也会随规模而“失效”。

在小模型上能指示结构优劣的特征，到了大规模模型上可能不再有意义：数据分布在变，学习到的 Pattern 在变，优化器和训练范式也在变。结构创新像是在走一条“黑箱楼梯”——你永远不知道下一层台阶是向上，还是突然塌陷。

从这个角度看，M2 回到 Full Attention，不只是结构选择，更是对当前评测体系的一次现实判断：在缺乏可靠、便宜、可扩展的观测手段之前，贸然大规模上 Efficient Attention，很可能是用真金白银验证一个不稳定的假设。

基建视角：谁才是真正“省钱”的 Attention？

原文的另一个关键视角，是把 Attention 结构放回到“基建”这个维度上来看。

这几年，整个生态在 Full Attention 上已经砸下了海量工程资源。框架、编译器、内核、推理引擎、Cache 机制、Speculative Decoding 策略……几乎所有底层优化都默认了这一套计算模式，并围绕它做到极端压榨。

相比之下，Linear / Sparse / Hybrid Attention 在基建层面的成熟度，其实远远落后。

MiniMax 的经验是：不少线性结构在训练阶段本身就是访存 bound，GPU 利用率并不高——也就是说，从“单步计算”的复杂度公式看起来很漂亮，但在真实硬件、真实 IO 条件下，并不一定比高度优化的 Full Attention 更省。

推理端更明显。理论上，Linear Attention 的优势，是在上下文长度足够长时，以更低复杂度撑住更长的序列。但原文给出的判断是：在今天的大模型规模与常见业务请求分布下，理论交点通常落在“几千 token”的长度上，而大部分真实请求的上下文长度，未必长期在这个区间。

更现实的问题则是：

Linear Attention 对数值精度更敏感，低精度存储与计算需要额外设计；
现有业务对 Prefix Cache 的依赖极强，线性结构下要重建一整套高命中率的缓存逻辑；
Speculative Decoding 已经深度绑定了 Full Attention 的行为假设，要在 Linear 架构下重新设计，几乎等于“重造一遍推理栈”。

也就是说，如果只看论文里的复杂度公式，很容易高估 Efficient Attention 的短期收益。

真正算上基建成本、训练迭代成本、线上维护成本，Full Attention 反而在当下阶段呈现出一种“工程上的确定性红利”。

M2 的选择：一次从 M1 教训出发的“延迟创新”

要理解 M2 的决策，还得把时间线往前拉一点。

在前期，MiniMax 已经做了大量结构实验，包括 Lightning Attention、Hybrid 架构以及更激进的 SWA 混合方案。很多尝试在论文视角下都算得上“优雅”：层间混合、层内混合、CPT 过渡成 Hybrid SWA……逻辑上很顺、复杂度公式也动人。

但实际结果非常现实：Context 越长，性能下降越严重，尤其在 Agent 场景下几乎难以接受。

事后的分析认为，这与模型在预训练早期就已经形成的全局 Attention Pattern 密切相关，例如 retrieval head、induction head 等；这些 Pattern 一旦在 Full Attention 下收敛，后续通过 CPT 很难被线性化结构重新塑形。

从理论上讲，如果能构建出足够聪明的数据探针，把关键 head 精准挑出来并保留 Full Attention，确实可能缓解问题；但在实际工程中，靠人类先验去挖这些 Pattern，既不现实也不稳定。

这就是“前因”。一轮轮在结构创新上的试错，让团队意识到——在当前评测、基建和算力环境下，大规模押注 Efficient Attention 的风险非常高。

于是才有了“后果”。在 M2 上回到 Full Attention，把主要精力投入到数据、训练范式、RL 与推理系统的打磨上，同时继续在“边缘”和“实验线”推进 Efficient Attention 的探索，为未来做准备。

从这个角度说，M2 的架构并非“保守”，而更像是一种 延迟兑现的创新策略。先用稳定、确定的结构盘好当前产品和商业化节奏，把风险更高的结构创新放到更合适的时间窗口去收割。

技术理性与工程诚实，对行业意味着什么？

它真正指向的是一个更大的命题。当大模型从实验室走向全天候在线服务时，技术决策的重心正在从“结构想象力”，迁移到“系统理性”与“工程诚实”。

一方面，论文里的复杂度、榜单上的分数，只是创新的起点，不是终点。真正决定技术路线成败的，是评测体系是否可靠、基建是否匹配、系统是否可控。

另一方面，Efficient Attention 的时代大概率会到来，但那是一个关于时间轴和准备程度的问题——需要硬件、数据、评测、工程四条线一起成熟，而不是靠“一篇论文 + 一次发布会”来强行提早启动。

在算力有限、业务多变、结构探索仍处早期的当下，比“效率”更稀缺的，是可预期、可解释、可维护的确定性。

参考文献：

上一篇：原创假如我有五万块

下一篇：原创宿舍丢失苹果手机，辅导员不让报警为何？

深度｜MiniMax M2为何坚持“落后”的Full Attention？预训练负责人揭秘Efficient路线远比想象中艰难

相关内容

热门资讯