10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观


想了解更多aigc的内容,

请访问:51CTO AI.x社区

https://www.51cto.com/aigc/

“只需”10万美元,训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了:

它叫JetMoE,来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

△贾扬清转发

要知道,后者可是数十亿美元级别的投入成本。

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。

不得说,大模型的打造成本,真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞:

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)

它的注意力层中仍然使用了MoE:

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)

每个MoA和MoE层又有8个专家,每次输入token激活2个。

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——

同时,它还收获了不错的性能表现。

如下图所示:

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。

作者介绍

JetMoE一共4位作者,分别是:

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。

传送门:https://github.com/myshell-ai/JetMoE
参考链接:https://twitter.com/jiayq/status/1775935845205463292

想了解更多aigc的内容,

请访问:51CTO AI.x社区

https://www.51cto.com/aigc/


# llama  # 将在  # 来了  # 去年  # 本科毕业  # 研究方向  # 研究机构  # 想了  # 就能  # 开源  # 普林斯顿  # deepseek  # AIGC  # https  # stable diffusion  # nlp  # transformer  # github  # Token  # 架构  # batch 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 豆包Ai官网在线入口_豆包Ai网页版访问方式  微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】  使用文心一言进行高质量的唐诗宋词创意改编  ATS优化:Euron ResumeAI打造高效求职简历  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革  AI工具投资指南:10个关键要素,助您明智决策  Excel Copilot:AI驱动的数据分析革命,提升效率秘籍  解锁 Gemini Gems 高级用法:打造专属 AI 专家助手  千问怎样调整回答语气_千问语气设置亲切专业等【指南】  SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  现代集团CES 2026首秀机器人Atlas 发布AI机器人战略  AI 3D人像视频制作:零成本手机教程,引爆社交媒体  数据集中化:提升AI效率,节省企业时间与成本的终极指南  文心一言辅助进行行业深度研究报告撰写  重温经典:宝可梦动画中的精彩瞬间与幕后花絮  LTX Studio:AI电影制作平台深度评测与应用指南  AI电子书写作终极指南:ChatGPT和Canva实战教程  Excel Copilot:AI驱动的强大新功能与实用案例解析  使用 DeepSeek 进行网络协议栈分析与优化建议  途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  怎么用AI帮你写一份有说服力的加薪申请?  2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  tofai网页版官方入口 tofai官网登录网址  如何用ChatGPT模拟面试并优化你的求职文书?  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  泰米尔电影猜谜游戏:挑战你的电影知识极限!  AI图片生成教程:轻松打造你的专属文化艺术照  Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】  蚂蚁阿福官方网站入口_网页版在线解读体检报告  为什么你的简历过不了筛选?用AI帮你诊断并修复漏洞  Claude怎样写引导型提示词_Claude引导提示词写法【方法】  颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象  轻松制作圣经视频:无需露脸也能赚钱的教程  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  怎么使用网页版deepseek【教程】  AI代码助手的崛起:软件工程的未来展望与实用指南  AI CRM集成:提升客户关系管理效率的关键  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  Gamma做年终总结PPT怎么用_Gamma做年终总结PPT使用方法详细指南【教程】  AI音频增强和视频背景替换终极指南  高效赋能:在线健身教练必备的七大工具  AI驱动合同管理:Microsoft Power Platform实战指南 

 2024-04-07

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.