自 MiniMax M2 发布以来,全球开发者社区的热度持续攀升。短短几天内,M2 便跃升为 OpenRouter 全球调用量前三、HuggingFace Trending 榜单第一的模型,并成为 OpenRouter 上首个日 Token 消耗量突破 500 亿的中国模型。
然而,当 M2 被迅速推上聚光灯后,一个问题也随之浮出水面:在整个行业几乎一致押注 Efficient Attention的当下,为什么 MiniMax 却选择了看似“保守”的 Full Attention路线?
不久前,M2 的预训练负责人孙昊海用一篇长文回应了这些质疑,把他们过去一两年在结构探索、评测体系、基建改造上的经历摊开给社区看。
本文会试图顺着那篇原文,梳理清楚这件事的前因后果。在今天的工业级 LLM 语境里,“效率”到底意味着什么,“结构创新”究竟卡在了哪里。
风口上的 Efficient Attention 与 M2 的逆行
先看大背景。
过去两年,大模型的叙事从“能不能对话”一路走到“能不能长文本、能不能便宜、能不能全天候跑在线上”。长上下文、Agent、多模态、代码与数学推理这些场景不断堆叠,大家很快发现一个残酷事实。
算力永远不够用。
在这样的压力下,Efficient Attention 自然而然成为风口:Linear Attention 用结构改写复杂度公式,Sparse Attention 用稀疏模式节省算力,Hybrid 架构试图两头兼顾——在论文和小规模实验里,它们都给出了足够动人的故事。
于是,当 MiniMax M2 宣布核心架构回到 Full Attention 时,质疑声几乎是本能反应:
在一个“人人都在讲效率”的时代,为什么有人选择“走回头路”?
在论文的世界里,一个 Attention 结构的好坏,往往可以通过一组 benchmark 或复杂度公式来讲清楚;但在一个真实的大模型产品里,Attention 只是整个链路中的一环,而且是被 Code / Math、多轮对话、Agent 编排、多模态输入、长链思维、RL 调优、低精度推理、Speculative Decoding、在线 cache 等一整套系统约束“夹击”的那一环。
换句话说,结构设计已经从一个“数学题”,变成了一个“系统工程题”。原文反复强调的一点是,工业系统里,所有结构创新最终都要接受三件事的拷问:
效果——各种任务上的综合表现,尤其是复杂推理与真实业务场景;
速度——线上 TPS,是否能支撑规模化 Agent、工具调用与多模态交互;
价格——综合训练 + 推理算力成本下,能否给用户足够有竞争力的报价。
在这个框架下,看 Efficient Attention 的问题就变了味。它不再是“能否把复杂度从 O(n²) 变成 O(n)”这么简单,而是:在真实业务负载和工程约束下,它是否真的有“性价比”?
原文的回答非常坦诚:就当前阶段来看,Efficient Attention 离这个目标还有明显距离。
评测体系的失真:榜单刷满分,不等于结构正确
过去几年,MMLU、BBH、Math、LongBench 等榜单不断涌现,每一个诞生之初,都声称更接近“真实能力”;但事实证明:只要一个榜单足够流行,就一定有人“把它刷爆”。
对结构创新来说,这会带来一个极危险的假象。
在小模型规模、有限 benchmark 上,某种 Linear / Hybrid Attention 可能表现得完美无缺,甚至看起来“完全不输 Full Attention”;但当模型规模拉大、场景变复杂,尤其是落到多跳推理、复杂 Agent 任务和极端长上下文时,问题才会慢慢浮出水面——而那时,训练成本已经砸下去了。
原文举了一个典型经验。在早期的 MiniMax-Text-01 阶段,一套 Hybrid 架构在当时主流榜单上表现很好,看起来似乎“找到了免费午餐”;然而当规模扩展之后,复杂多跳推理任务出现了肉眼可见的缺陷,逼得团队不得不重做代理指标、重建评测链路。
更棘手的是,指标本身也会随规模而“失效”。
在小模型上能指示结构优劣的特征,到了大规模模型上可能不再有意义:数据分布在变,学习到的 Pattern 在变,优化器和训练范式也在变。结构创新像是在走一条“黑箱楼梯”——你永远不知道下一层台阶是向上,还是突然塌陷。
从这个角度看,M2 回到 Full Attention,不只是结构选择,更是对当前评测体系的一次现实判断:在缺乏可靠、便宜、可扩展的观测手段之前,贸然大规模上 Efficient Attention,很可能是用真金白银验证一个不稳定的假设。
基建视角:谁才是真正“省钱”的 Attention?
原文的另一个关键视角,是把 Attention 结构放回到“基建”这个维度上来看。
这几年,整个生态在 Full Attention 上已经砸下了海量工程资源。框架、编译器、内核、推理引擎、Cache 机制、Speculative Decoding 策略……几乎所有底层优化都默认了这一套计算模式,并围绕它做到极端压榨。
相比之下,Linear / Sparse / Hybrid Attention 在基建层面的成熟度,其实远远落后。
MiniMax 的经验是:不少线性结构在训练阶段本身就是访存 bound,GPU 利用率并不高——也就是说,从“单步计算”的复杂度公式看起来很漂亮,但在真实硬件、真实 IO 条件下,并不一定比高度优化的 Full Attention 更省。
推理端更明显。理论上,Linear Attention 的优势,是在上下文长度足够长时,以更低复杂度撑住更长的序列。但原文给出的判断是:在今天的大模型规模与常见业务请求分布下,理论交点通常落在“几千 token”的长度上,而大部分真实请求的上下文长度,未必长期在这个区间。
更现实的问题则是:
Linear Attention 对数值精度更敏感,低精度存储与计算需要额外设计;
现有业务对 Prefix Cache 的依赖极强,线性结构下要重建一整套高命中率的缓存逻辑;
Speculative Decoding 已经深度绑定了 Full Attention 的行为假设,要在 Linear 架构下重新设计,几乎等于“重造一遍推理栈”。
也就是说,如果只看论文里的复杂度公式,很容易高估 Efficient Attention 的短期收益。
真正算上基建成本、训练迭代成本、线上维护成本,Full Attention 反而在当下阶段呈现出一种“工程上的确定性红利”。
M2 的选择:一次从 M1 教训出发的“延迟创新”
要理解 M2 的决策,还得把时间线往前拉一点。
在前期,MiniMax 已经做了大量结构实验,包括 Lightning Attention、Hybrid 架构以及更激进的 SWA 混合方案。很多尝试在论文视角下都算得上“优雅”:层间混合、层内混合、CPT 过渡成 Hybrid SWA……逻辑上很顺、复杂度公式也动人。
但实际结果非常现实:Context 越长,性能下降越严重,尤其在 Agent 场景下几乎难以接受。
事后的分析认为,这与模型在预训练早期就已经形成的全局 Attention Pattern 密切相关,例如 retrieval head、induction head 等;这些 Pattern 一旦在 Full Attention 下收敛,后续通过 CPT 很难被线性化结构重新塑形。
从理论上讲,如果能构建出足够聪明的数据探针,把关键 head 精准挑出来并保留 Full Attention,确实可能缓解问题;但在实际工程中,靠人类先验去挖这些 Pattern,既不现实也不稳定。
这就是“前因”。一轮轮在结构创新上的试错,让团队意识到——在当前评测、基建和算力环境下,大规模押注 Efficient Attention 的风险非常高。
于是才有了“后果”。在 M2 上回到 Full Attention,把主要精力投入到数据、训练范式、RL 与推理系统的打磨上,同时继续在“边缘”和“实验线”推进 Efficient Attention 的探索,为未来做准备。
从这个角度说,M2 的架构并非“保守”,而更像是一种 延迟兑现的创新策略。先用稳定、确定的结构盘好当前产品和商业化节奏,把风险更高的结构创新放到更合适的时间窗口去收割。
技术理性与工程诚实,对行业意味着什么?
它真正指向的是一个更大的命题。当大模型从实验室走向全天候在线服务时,技术决策的重心正在从“结构想象力”,迁移到“系统理性”与“工程诚实”。
一方面,论文里的复杂度、榜单上的分数,只是创新的起点,不是终点。真正决定技术路线成败的,是评测体系是否可靠、基建是否匹配、系统是否可控。
另一方面,Efficient Attention 的时代大概率会到来,但那是一个关于时间轴和准备程度的问题——需要硬件、数据、评测、工程四条线一起成熟,而不是靠“一篇论文 + 一次发布会”来强行提早启动。
在算力有限、业务多变、结构探索仍处早期的当下,比“效率”更稀缺的,是可预期、可解释、可维护的确定性。
参考文献:
上一篇:原创 假如我有五万块