华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由


AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文共同一作为李婧博士,孙志杰和林大超博士,主要成员来自gts ai计算lab,主要研究及落地领域包含llm训推加速、ai训练保障和图计算。

MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。

LocMoE 的上述设计有效缓解了部分 MoE 经典结构在训练中的瓶颈,如: 专家路由算法可能无法有效区分 token,以及通信同步效率受限于节点内和节点间的传输带宽差异等。此外,LocMoE 证明并求解出在能够成功处理判别性 token 的前提下专家容量的下限。该下限是根据 token 被动派发给专家的场景下,判别性 token 存在于 token 批次中的概率分布而得出。那么,如果专家同样具备择优 token 的能力,判别性 token 被处理的概率将大幅提高,专家容量下限将能进一步压缩。

在上述设想的基础上,该团队进一步提出了基于低开销主动路由的 MoE 架构,将其命名为 LocMoE+。LocMoE+ 继承了 LocMoE 高判别性专家以及本地性通信优势,进一步改造路由策略,定义 token 与专家之间的亲和度指标,并以此指标入手,更有效率完成 token 分派,进而提升训练效率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文链接:https://arxiv.org/pdf/2406.00023

论文简介

该论文的核心思路是通过结合传统被动路由与专家主动路由,提升一定容量下处理判别性 token 的概率,从而降低样本噪声和提升训练效率。该论文从 token 和其被分派的专家之间的关系入手,以一种低计算开销的方案量化和定义了专家与 token 之间的亲和性。据此,该论文实现了全局的自适应路由策略,并基于亲和性得分以专家维度对 token 进行重排和选择。同时,专家容量的下限被证明随着 token 特征分布的稳定而逐渐减小,训练开销得以降低。

该论文率先结合两种路由机制,根据学习性路由策略中 token 倾向于路由至与其夹角更小的专家的发现,打破了主动路由现存方案开销过大影响训练效率的障碍,并与被动路由的本质保持统一。

值得一提的是,作者选用了和 LocMoE 工作完全不同的硬件环境(服务器型号,NPU卡型号,集群组网方案)、训练框架和骨干模型,以证明该系列工作的高扩展性和易于移植性。

自适应双向路由分派机制

背景介绍

传统 MoE 有两种路由分派机制:

(1)hard router,直接把整个 token 特征进行分派;
(2)soft router,把 token 特征的加权组合进行分派。

本文延续考虑(1)因其较低的计算代价。而对于 hard router 场景,又可分为 1)Token Choice Router (TCR), 也就是让每个 token 去选 top-k 专家;2)Expert Choice Router (ECR),也就是让每个专家去选择 top-C 合适的 token。由于容量限制,每个专家接收的 token 数有上限 C, 因此在场景 1)中,会对每个专家接收的 token进行截断:

前人工作指出 MoE 训练分为两阶段:Phase 1. 路由训练,保障路由可以合理分派 token,也就是能把不同领域或者差异大的 token 进行区分和分派给不同专家;Phase 2. 由于 token 路由的作用,每个专家接收到相同领域或者性质相近的 token,每个专家在经历一定训练后就可以习得相关领域和性质的知识。总结来说,MoE 每步训练“成功”的关键在于 token 分派的正确和合理性。

该文贡献

(1)通过 softmax 激活函数推演,专家和 token 之间的余弦相似度能够较为准确地衡量亲和度:

(2)从理论建模角度,分析 TCR 和 ECR 两个常见场景下单次训练成功率:
基于理论,作者指出

  • 在模型训练初期,路由分派 token 能力不足时,每次训练 TCR 要比 ECR 以更高概率成功训练,而且需要较大的专家容量保证选到合适的 token。
  • 在模型训练后期,路由有一定能力正确分派 token 时,每次训练 ECR 要比 TCR 以更高概率成功训练,此时只需要较小的容量就可以选到合适的 token。

该理论也很符合直观,路由没有分派能力时,不如让 token 随机选择专家,而当路由有一定分派能力,也就是专家能选到合适 token 的时候,使用 ECR 更合适。因此作者推荐 TCR 向 ECR 方式的转变,提出了全局级别的自适应路由切换策略,同时基于专家容量的需求估计,在训练后期使用更小的专家容量。

实验结果

该论文的实验在昇腾 910B3 NPU 的自建集群上进行,得益于华为专有的高速缓存一致性协议高性能计算系统(HCCS)在多卡场景下实现的高性能设备间数据通信,以及专为昇腾处理器设计的华为集合通信库(HCCL)在 HCCS 等高速链路上实现高性能分布式训练。实验采用兼容昇腾 NPU 的 PyTorch for Ascend 框架和专为昇腾设备定制的加速库 AscendSpeed 和训练框架 ModelLink,关注 LLM 并行策略和通信遮掩优化。

训练效率

实验结果表明,在不影响模型训练收敛性或有效性的情况下,每个专家至少需要处理的token数量较基线可以减少60% 以上。结合通信优化,在 32 卡、64 卡和 256 卡的集群规模下,训练效率平均提高 5.4% 至 46.6%。

显存占用

LocMoE+ 对于显存占用也存在一定增益,尤其是集群规模较小计算较密集的场景。使用 Ascend Insight 工具对显存监控样本进行分析,可以看出,LocMoE+ 显存使用相比于基线下降了 4.57% 至 16.27%,相比于 LocMoE 下降了 2.86% 至 10.5%。随着集群规模的增大,显存占用的差距随之缩小。

效果评测

开源评测集 C-Eval 和 TeleQnA,以及自主构建的 ICT 领域评测集 GDAD 被用于评估 LocMoE+ 在通用知识和领域知识上的能力。其中,GDAD 共计覆盖了 47 个子项,包含 18060 条样本,考察模型在领域任务,领域能力认证考试和通用能力三大评估体系中的表现。

经过充分 SFT 后,LocMoE+ 相比于基线在领域任务能力的 16 个子能力上平均提升了约 20.1%,相比于 LocMoE 则提升了约3.5%。领域能力认证考试则分别提升了 16% 和 4.8%。在通用能力的 18 个子能力中,LocMoE+ 分别提升约 13.9% 和 4.8%。整体而言,LocMoE+ 在 GDAD、C-Eval 和 TeleQnA 上分别表现出 9.7% 到 14.1% 的效果提升。


# router  # 专为  # 较小  # 要比  # 更高  # 有一定  # 自适应  # 高性能  # 提出了  # 显存  # 华为  # https  # pytorch  # 算法  # 继承  # Token  # for  # 分布式  # 架构  # 高可扩展性 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  宝可梦化石精灵大揭秘:晶灿钻石视角下的精灵演化  Vizeo AI视频生成器:无需技术,轻松打造营销利器  Cred.ai信用卡深度评测:信用提升的秘密武器  AI赋能项目管理:5个实用技巧提升效率  AI工具投资指南:10个关键要素,助您明智决策  AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】  精选AI销售工具:提升业绩的终极指南(2025年最新)  AI赋能音频转录:SovereignAudio自托管解决方案  AI写作工具检测:学生如何避免学术不端行为  探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙  唇语解读的界限:名人的隐私与公众的好奇心  百度输入法ai模式怎么关 百度输入法恢复普通模式  千问如何切换回答风格_千问风格选择正式口语等【实操】  2025年最佳免费AI艺术生成器:POD终极指南  GoHighLevel AI Agent:终极指南,释放你的CRM潜力  DiagramMagic:AI驱动的在线图表生成器终极指南  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  ChatGPT助力QA测试:提升效率与质量的终极指南  Napkin AI:无需设计技能,AI一键生成精美图表  微信AI数字人怎样切换形象风格_微信AI数字人形象更换与风格选择【技巧】  CareerCraft AI:提升大学生实习就业的智能平台  ChatGPT 如何助力建筑承包商?三大实用技巧解析  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  豆包AI能否用提示词调整回答深度_豆包AI深度控制提示词技巧【方法】  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  Jasper AI的Recipes是什么 Jasper AI配方功能使用【详解】  佐糖AI抠图能否识别商品白底_佐糖AI电商白底图自动处理流程【教程】  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  AI朋友圈文案生成工具有哪些_一键生成营销文案的AI工具推荐  SteosVoice:电报语音克隆终极教程  打造AI Jarvis:停止功能、联网、中文与人脸集成  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  百度输入法总是弹出ai 百度输入法ai自动弹出关闭  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  Amazon Rekognition: 图像与视频分析的强大AI工具  零基础玩转千问AI,轻松实现月入万元的最新方法!  AI测试面试准备:提升你的面试技巧与知识储备  AI虚拟网红打造指南:轻松制作专属社交媒体形象  构建AI工作流:利用BuildShip低代码平台赋能Gemini和Google Cloud  CanvaAI抠图怎么批量处理_CanvaAI批量抠图与团队协作功能【指南】  AI赋能软件测试:自动化、智能化与未来趋势  利用豆包 AI 进行个性化旅行 Vlog 脚本设计  ChatGPT怎样用提示词模拟专家视角_ChatGPT专家视角设置【指南】  Character AI深度解析:功能、用户反馈与替代方案全攻略  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文  AI写作工具深度评测:Novelcrafter, Sudowrite, Squibler  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌 

 2024-07-19

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.