谷歌宣布新架构,,用一半内存实现推理速率翻倍
谷歌 DeepMind 与韩国科学手艺院(KAIST)的研究职员克日联合宣布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模子架构。。。据称能在坚持模子性能的同时,,实现了推理速率翻倍、训练盘算量镌汰并降低了约 50% 的 KV 缓存内存使用。。。论文一经宣布,,便在社交媒体上引发了普遍关注,,甚至有谈论称其或许是“Transformer 杀手”。。。
自 2017 年问世以来,,Transformer 架构已成为大型语言模子的手艺基础,,现在险些所有先进模子都建设在这一架构之上。。。但随着模子规模越来越大,,Transformer 架构对盘算和内存资源的需求也日益增添,,训练和安排本钱十分高昂。。。已往的效率优化要领通常只关注简单偏向,,例如通过参数共享来缩小模子尺寸,,或通过自顺应盘算来按需分派算力,,但很少能将多个效率目的同时优化。。。
MoR 架构的焦点立异在于将递归盘算与动态路由机制相连系,,在一个统一框架内解决多重效率问题。。。在标准的 Transformer 模子中,,输入文本的每一个 token 都要经由相同数目的盘算层处置惩罚。。。MoR 则改变了这一模式,,它允许差别的 token 凭证自身的重漂后,,接受差别深度的处置惩罚。。。
图丨MoR 架构的概览(泉源:arXiv)
详细来说,,MoR 使用共享的参数块来提升参数效率,,同时通过一个轻量级的“路由器”,,来决议每个 token 需要履历几多次递归盘算。。。研究团队测试了多种路由战略,,例如“专家选择”(expert-choice)和“token 选择”(token-choice),,以平衡盘算负载和阻止信息处置惩罚中的逻辑问题。。。在参数共享方面,,测试效果批注“Middle-Cycle”战略体现最好,,该战略坚持模子的第一层和最后一层使用自力的参数,,只在中心层之间共享权重,,以此在参数效率和模子的表达能力之间取得较好的平衡。。。
图丨MoR 的焦点组件(泉源:arXiv)
内存治理是 MoR 的另一项要害刷新。。。纵然参数共享了,,古板递归模子在每一层递归时仍会爆发自力的 KV 缓存,,导致内存占用依然很高。。。MoR 提出了两种新的 KV 缓存战略来应对这一问题。。。一种是“递归式缓存”,,只为被路由到特定递归办法的 token 存储 KV 数据,,并将注重力盘算限制在这些外地数据中,,从而有用降低了 KV 缓存的内存占用和数据读写量。。。另一种“递归共享”战略则更进一步,,使用所有 token 都会经由第一个递归块的特征,,只在第一步缓存 KV 数据,,供后续所有递归办法重复使用,,以此最大化地节约内存。。。
研究团队在 1.35 亿到 17 亿参数的多个模子规模上举行了测试。。。效果批注,,在相同的训练盘算预算下,,一个接纳 MoR 架构的模子,,虽然其参数目比基准 Transformer 模子少了近一半,,但在多项少样本学习使命中的平均准确率抵达了 43.1%,,凌驾了基准模子的 42.3%。。。
(泉源:arXiv)
更主要的是,,MoR 更高的盘算效率,,使其能在相同的盘算预算内处置惩罚更多的训练数据,,这反过来也提升了模子的最终性能。。。在牢靠训练数据量的比照实验中,,一个 MoR 设置在使用少 25% 训练盘算量的情形下,,其性能依然凌驾了基准模子,,同时训练时间镌汰了 19%,,峰值内存使用也降低了 25%。。。
在推理性能上,,MoR 的优势越发显着。。。它接纳了一种一连深度批处置惩罚手艺,,可以将处在差别盘算阶段的 token 组合到统一个批次中举行处置惩罚,,由于它们都使用相同的参数块。。。该手艺配合模子的早期退出机制,,显著提升了处置惩罚吞吐量。。。在 3.6 亿规模的模子测试中,,MoR-4 设置在特定设置下实现了高达 2.06 倍的推理加速。。。
研究还发明,,MoR 模子在处置惩罚差别类型 token 时,,体现出一种与语义主要性相关的模式。。。内容富厚的 token,,如“People”或“defensively confident”,,会被分派更多的递归次数(三次);;;而功效性词汇,,如“and”,,通常只需要较少的递归次数。。。这批注,,模子学会了将更多的盘算资源用于处置惩罚更主要的信息。。。
现实上,,MoR 的泛起也离不开谷歌此前相关研究的铺垫。。。在早前的 Mixture-of-Depths(MoD)等手艺中,,谷歌 DeepMind 就已经探索了动态分派盘算资源的要领。。。同时,,递归 Transformer 作为一种参数共享手艺,,也为 MoR 提供了理论基础。。。
MoR 进一步延续了这些研究对 AI 效率优化的探索,,即从简单维度的优化,,转向参数、盘算和内存等多个维度的协同优化。。。这关于降低大语言模子的安排和使用本钱具有较大的现实意义。。。
总体而言,,虽然现在断言 MoR 能否完全替换 Transformer 还为时过早,,但它确实为未来的语言模子架构设计,,提供了一个在性能和效率上都极具潜力的生长偏向。。。
参考资料:
1.https://arxiv.org/abs/2507.10524
运营/排版:何晨龙
原神芙宁娜裸体被❌涩涩
美女免费㊙️免费看网站
3D月婵被❌到爽动漫网站
MM131杨晨晨被❌
小医仙⋯啊⋯嗯~出奶了
人狗大战2观看的收费情况
啊~你tm别㖭了小sao货总裁
Gay猛男XXX腹肌警察GaY
微信看片
留守妇女做❤️小说
少司缘裸体开腿裸体动漫
校花扒开🍑给男人
16妺妺主动让我破了她的处
日本❌❌❌❌69少妇
69TV国产成人🔞福利游戏
芭乐视app下载网址进入ios
巨荒录一龙四凤唐嫣最新章节更新
中国肥熟女❌❌❌
les第一次进入女朋友身体
12孩岁女被无套侵犯
女小12萝裸体洗澡
日本spa针刺乳房疼
动漫内裤内衣
女同学光腚坐在我的脸上放屁小说
女女🔞被一堆玩具玩哭小说
少妇婬荡呻吟揉捏奶头
虎杖被五条悟淦出液体
学生把×进了老师的里
护士好紧⋯开裆蕾丝内裤
美女㊙️露尿头奶头无遮挡软件
纳西妲疯狂自慰爽网站
成人🔞羞羞免费视频在线播放
田爆乳被❌🔞🔞㊙️网站
揉我胸⋯啊⋯嗯~出水章子怡
把🍌伸进男人的🍑www男男
好爽⋯好紧⋯高H公交车双男漫画
德国老妇擦擦荫泬A片
男男GayGay✅无套打屁股疼
60岁岳不让我戴套
温碧霞被躁120分钟视频下载
原神可莉被C到高潮小说
吻唇戏动漫片
裸体㊙️无遮挡放屁日本语
国产精品黑人黑鬼外企富婆
雏田被❌吸乳羞羞网站
992kp免费看片
巨胸美女动漫下裸❌果冻传煤
brazzersHD100%
少年巨茎征服熟女人妻麻妃图片
原神GaY男男✅免费视频
宁荣荣被❌挤奶羞羞小说
同性女A片18🈲
海贼王女帝强❌乳喷自慰爽
日本❌❌❌❌❌色情刚黄包
打屁股🔞网站打屁股
《变态作文》
❌n❌❌❌XHD日本
双飞刘涛和董卿娱乐明星之皇
女生用懒羊羊音色帮保安录音
欲涩漫app免费❤网站
春丽裸体被爆❌羞羞漫画
刷刀体质(免费)
动漫❌欧派❌抓奶网
动漫美女被❌羞羞动漫
深夜影院观看免费完整版高清
爆❌喷水❌洗澡❌真人
小🐔🐔伸进🈲1818
野原琳被C到哭❌视频
原神涩涩同人❌18禁 - 百度
刘小燕婆媳双飞免费阅读
Pornhub入口在线观看
云曦被❌❌爆乳无尽小说
女高中打屁股被♥网站╳
mofos免费48👙
小🐔手戳进女生的大🐻
龙珠18号本子全彩
玖辛奈乳爆❌自慰爽
小13萝裸体自慰张婉莹
どざむら黑人vs○学生
3d护士被c🔞黄㊙️❌
91传媒麻豆2024入口
网友谈论 审查所有谈论>>