k8凯发

嗯~啊别揉我奶头㊙️黄 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

k8·凯发(国际游) - 官方网站

谷歌宣布新架构,,用一半内存实现推理速率翻倍

谷歌宣布新架构,,用一半内存实现推理速率翻倍

谷歌 DeepMind 与韩国科学手艺院(KAIST)的研究职员克日联合宣布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模子架构。。。据称能在坚持模子性能的同时,,实现了推理速率翻倍、训练盘算量镌汰并降低了约 50% 的 KV 缓存内存使用。。。论文一经宣布,,便在社交媒体上引发了普遍关注,,甚至有谈论称其或许是“Transformer 杀手”。。。

自 2017 年问世以来,,Transformer 架构已成为大型语言模子的手艺基础,,现在险些所有先进模子都建设在这一架构之上。。。但随着模子规模越来越大,,Transformer 架构对盘算和内存资源的需求也日益增添,,训练和安排本钱十分高昂。。。已往的效率优化要领通常只关注简单偏向,,例如通过参数共享来缩小模子尺寸,,或通过自顺应盘算来按需分派算力,,但很少能将多个效率目的同时优化。。。

MoR 架构的焦点立异在于将递归盘算与动态路由机制相连系,,在一个统一框架内解决多重效率问题。。。在标准的 Transformer 模子中,,输入文本的每一个 token 都要经由相同数目的盘算层处置惩罚。。。MoR 则改变了这一模式,,它允许差别的 token 凭证自身的重漂后,,接受差别深度的处置惩罚。。。

图丨MoR 架构的概览(泉源:arXiv)

详细来说,,MoR 使用共享的参数块来提升参数效率,,同时通过一个轻量级的“路由器”,,来决议每个 token 需要履历几多次递归盘算。。。研究团队测试了多种路由战略,,例如“专家选择”(expert-choice)和“token 选择”(token-choice),,以平衡盘算负载和阻止信息处置惩罚中的逻辑问题。。。在参数共享方面,,测试效果批注“Middle-Cycle”战略体现最好,,该战略坚持模子的第一层和最后一层使用自力的参数,,只在中心层之间共享权重,,以此在参数效率和模子的表达能力之间取得较好的平衡。。。

图丨MoR 的焦点组件(泉源:arXiv)

内存治理是 MoR 的另一项要害刷新。。。纵然参数共享了,,古板递归模子在每一层递归时仍会爆发自力的 KV 缓存,,导致内存占用依然很高。。。MoR 提出了两种新的 KV 缓存战略来应对这一问题。。。一种是“递归式缓存”,,只为被路由到特定递归办法的 token 存储 KV 数据,,并将注重力盘算限制在这些外地数据中,,从而有用降低了 KV 缓存的内存占用和数据读写量。。。另一种“递归共享”战略则更进一步,,使用所有 token 都会经由第一个递归块的特征,,只在第一步缓存 KV 数据,,供后续所有递归办法重复使用,,以此最大化地节约内存。。。

研究团队在 1.35 亿到 17 亿参数的多个模子规模上举行了测试。。。效果批注,,在相同的训练盘算预算下,,一个接纳 MoR 架构的模子,,虽然其参数目比基准 Transformer 模子少了近一半,,但在多项少样本学习使命中的平均准确率抵达了 43.1%,,凌驾了基准模子的 42.3%。。。

(泉源:arXiv)

更主要的是,,MoR 更高的盘算效率,,使其能在相同的盘算预算内处置惩罚更多的训练数据,,这反过来也提升了模子的最终性能。。。在牢靠训练数据量的比照实验中,,一个 MoR 设置在使用少 25% 训练盘算量的情形下,,其性能依然凌驾了基准模子,,同时训练时间镌汰了 19%,,峰值内存使用也降低了 25%。。。

在推理性能上,,MoR 的优势越发显着。。。它接纳了一种一连深度批处置惩罚手艺,,可以将处在差别盘算阶段的 token 组合到统一个批次中举行处置惩罚,,由于它们都使用相同的参数块。。。该手艺配合模子的早期退出机制,,显著提升了处置惩罚吞吐量。。。在 3.6 亿规模的模子测试中,,MoR-4 设置在特定设置下实现了高达 2.06 倍的推理加速。。。

研究还发明,,MoR 模子在处置惩罚差别类型 token 时,,体现出一种与语义主要性相关的模式。。。内容富厚的 token,,如“People”或“defensively confident”,,会被分派更多的递归次数(三次);;;而功效性词汇,,如“and”,,通常只需要较少的递归次数。。。这批注,,模子学会了将更多的盘算资源用于处置惩罚更主要的信息。。。

现实上,,MoR 的泛起也离不开谷歌此前相关研究的铺垫。。。在早前的 Mixture-of-Depths(MoD)等手艺中,,谷歌 DeepMind 就已经探索了动态分派盘算资源的要领。。。同时,,递归 Transformer 作为一种参数共享手艺,,也为 MoR 提供了理论基础。。。

MoR 进一步延续了这些研究对 AI 效率优化的探索,,即从简单维度的优化,,转向参数、盘算和内存等多个维度的协同优化。。。这关于降低大语言模子的安排和使用本钱具有较大的现实意义。。。

总体而言,,虽然现在断言 MoR 能否完全替换 Transformer 还为时过早,,但它确实为未来的语言模子架构设计,,提供了一个在性能和效率上都极具潜力的生长偏向。。。

参考资料:

1.https://arxiv.org/abs/2507.10524

运营/排版:何晨龙

相关推荐:动漫美女脱了内裤内衣的软件 柳岩被❌的冒白浆 JoeJonas穿内裤上街

分享: 2025-07-21 21:54:16 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】