谷歌宣布新架构，，用一半内存实现推理速率翻倍

谷歌宣布新架构，，用一半内存实现推理速率翻倍

谷歌 DeepMind 与韩国科学手艺院（KAIST）的研究职员克日联合宣布了一种名为“Mixture-of-Recursions”（MoR）的新型语言模子架构。。。据称能在坚持模子性能的同时，，实现了推理速率翻倍、训练盘算量镌汰并降低了约 50% 的 KV 缓存内存使用。。。论文一经宣布，，便在社交媒体上引发了普遍关注，，甚至有谈论称其或许是“Transformer 杀手”。。。

自 2017 年问世以来，，Transformer 架构已成为大型语言模子的手艺基础，，现在险些所有先进模子都建设在这一架构之上。。。但随着模子规模越来越大，，Transformer 架构对盘算和内存资源的需求也日益增添，，训练和安排本钱十分高昂。。。已往的效率优化要领通常只关注简单偏向，，例如通过参数共享来缩小模子尺寸，，或通过自顺应盘算来按需分派算力，，但很少能将多个效率目的同时优化。。。

MoR 架构的焦点立异在于将递归盘算与动态路由机制相连系，，在一个统一框架内解决多重效率问题。。。在标准的 Transformer 模子中，，输入文本的每一个 token 都要经由相同数目的盘算层处置惩罚。。。MoR 则改变了这一模式，，它允许差别的 token 凭证自身的重漂后，，接受差别深度的处置惩罚。。。

图丨MoR 架构的概览（泉源：arXiv）

详细来说，，MoR 使用共享的参数块来提升参数效率，，同时通过一个轻量级的“路由器”，，来决议每个 token 需要履历几多次递归盘算。。。研究团队测试了多种路由战略，，例如“专家选择”（expert-choice）和“token 选择”（token-choice），，以平衡盘算负载和阻止信息处置惩罚中的逻辑问题。。。在参数共享方面，，测试效果批注“Middle-Cycle”战略体现最好，，该战略坚持模子的第一层和最后一层使用自力的参数，，只在中心层之间共享权重，，以此在参数效率和模子的表达能力之间取得较好的平衡。。。

图丨MoR 的焦点组件（泉源：arXiv）

内存治理是 MoR 的另一项要害刷新。。。纵然参数共享了，，古板递归模子在每一层递归时仍会爆发自力的 KV 缓存，，导致内存占用依然很高。。。MoR 提出了两种新的 KV 缓存战略来应对这一问题。。。一种是“递归式缓存”，，只为被路由到特定递归办法的 token 存储 KV 数据，，并将注重力盘算限制在这些外地数据中，，从而有用降低了 KV 缓存的内存占用和数据读写量。。。另一种“递归共享”战略则更进一步，，使用所有 token 都会经由第一个递归块的特征，，只在第一步缓存 KV 数据，，供后续所有递归办法重复使用，，以此最大化地节约内存。。。

研究团队在 1.35 亿到 17 亿参数的多个模子规模上举行了测试。。。效果批注，，在相同的训练盘算预算下，，一个接纳 MoR 架构的模子，，虽然其参数目比基准 Transformer 模子少了近一半，，但在多项少样本学习使命中的平均准确率抵达了 43.1%，，凌驾了基准模子的 42.3%。。。

（泉源：arXiv）

更主要的是，，MoR 更高的盘算效率，，使其能在相同的盘算预算内处置惩罚更多的训练数据，，这反过来也提升了模子的最终性能。。。在牢靠训练数据量的比照实验中，，一个 MoR 设置在使用少 25% 训练盘算量的情形下，，其性能依然凌驾了基准模子，，同时训练时间镌汰了 19%，，峰值内存使用也降低了 25%。。。

在推理性能上，，MoR 的优势越发显着。。。它接纳了一种一连深度批处置惩罚手艺，，可以将处在差别盘算阶段的 token 组合到统一个批次中举行处置惩罚，，由于它们都使用相同的参数块。。。该手艺配合模子的早期退出机制，，显著提升了处置惩罚吞吐量。。。在 3.6 亿规模的模子测试中，，MoR-4 设置在特定设置下实现了高达 2.06 倍的推理加速。。。

研究还发明，，MoR 模子在处置惩罚差别类型 token 时，，体现出一种与语义主要性相关的模式。。。内容富厚的 token，，如“People”或“defensively confident”，，会被分派更多的递归次数（三次）；；；而功效性词汇，，如“and”，，通常只需要较少的递归次数。。。这批注，，模子学会了将更多的盘算资源用于处置惩罚更主要的信息。。。

现实上，，MoR 的泛起也离不开谷歌此前相关研究的铺垫。。。在早前的 Mixture-of-Depths（MoD）等手艺中，，谷歌 DeepMind 就已经探索了动态分派盘算资源的要领。。。同时，，递归 Transformer 作为一种参数共享手艺，，也为 MoR 提供了理论基础。。。

MoR 进一步延续了这些研究对 AI 效率优化的探索，，即从简单维度的优化，，转向参数、盘算和内存等多个维度的协同优化。。。这关于降低大语言模子的安排和使用本钱具有较大的现实意义。。。

总体而言，，虽然现在断言 MoR 能否完全替换 Transformer 还为时过早，，但它确实为未来的语言模子架构设计，，提供了一个在性能和效率上都极具潜力的生长偏向。。。

参考资料：

1.https://arxiv.org/abs/2507.10524

运营/排版：何晨龙

分享： 2025-07-21 21:54:16 共81款