想了解更多aigc的内容,
请访问:51CTO AI.x社区
https://www.51cto.com/aigc/
“只需”10万美元,训练Llama-2级别的大模型。
尺寸更小但性能不减的MoE模型来了:
它叫JetMoE,来自MIT、普林斯顿等研究机构。
性能妥妥超过同等规模的Llama-2。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
△贾扬清转发
要知道,后者可是数十亿美元级别的投入成本。
JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。
不得说,大模型的打造成本,真的比人们想的要便宜更多了。
Ps. Stable Diffusion前老板Emad也点了赞:
JetMoE启发于ModuleFormer的稀疏激活架构。
(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)
它的注意力层中仍然使用了MoE:
80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。
每个MoA和MoE层又有8个专家,每次输入token激活2个。
JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。
具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段:
第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。
第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。
最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。
更多技术细节将在不久后发布的技术报告上揭露。
而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——
同时,它还收获了不错的性能表现。
如下图所示:
JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。
在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。
JetMoE一共4位作者,分别是:
Yikang ShenMIT-IBM Watson Lab研究员,研究方向NLP。
本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。
MIT博士在读, 研究方向为3D成像的数据高效机器学习。
UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。
普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。
MIT博士在读,同时在创业,MyShell的AI研发主管。
这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。
传送门:https://github.com/myshell-ai/JetMoE
参考链接:https://twitter.com/jiayq/status/1775935845205463292
想了解更多aigc的内容,
请访问:51CTO AI.x社区
https://www.51cto.com/aigc/
# llama
# 将在
# 来了
# 去年
# 本科毕业
# 研究方向
# 研究机构
# 想了
# 就能
# 开源
# 普林斯顿
# deepseek
# AIGC
# https
# stable diffusion
# nlp
# transformer
# github
# Token
# 架构
# batch
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
豆包Ai官网在线入口_豆包Ai网页版访问方式
微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】
使用文心一言进行高质量的唐诗宋词创意改编
ATS优化:Euron ResumeAI打造高效求职简历
eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX
通义千问怎么设置功能偏好_通义千问偏好设置【教程】
ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革
AI工具投资指南:10个关键要素,助您明智决策
Excel Copilot:AI驱动的数据分析革命,提升效率秘籍
解锁 Gemini Gems 高级用法:打造专属 AI 专家助手
千问怎样调整回答语气_千问语气设置亲切专业等【指南】
SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
现代集团CES 2026首秀机器人Atlas 发布AI机器人战略
AI 3D人像视频制作:零成本手机教程,引爆社交媒体
数据集中化:提升AI效率,节省企业时间与成本的终极指南
文心一言辅助进行行业深度研究报告撰写
重温经典:宝可梦动画中的精彩瞬间与幕后花絮
LTX Studio:AI电影制作平台深度评测与应用指南
AI电子书写作终极指南:ChatGPT和Canva实战教程
Excel Copilot:AI驱动的强大新功能与实用案例解析
使用 DeepSeek 进行网络协议栈分析与优化建议
途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】
都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?
怎么用AI帮你写一份有说服力的加薪申请?
2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新
Wrike:AI赋能的项目管理平台,提升电商效率与团队协作
tofai网页版官方入口 tofai官网登录网址
如何用ChatGPT模拟面试并优化你的求职文书?
批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】
提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置
泰米尔电影猜谜游戏:挑战你的电影知识极限!
AI图片生成教程:轻松打造你的专属文化艺术照
Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】
蚂蚁阿福官方网站入口_网页版在线解读体检报告
为什么你的简历过不了筛选?用AI帮你诊断并修复漏洞
Claude怎样写引导型提示词_Claude引导提示词写法【方法】
颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象
轻松制作圣经视频:无需露脸也能赚钱的教程
解密Poppy Playtime怪物:全面解析玩具世界背后的故事
怎么使用网页版deepseek【教程】
AI代码助手的崛起:软件工程的未来展望与实用指南
AI CRM集成:提升客户关系管理效率的关键
AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐
探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”
Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本
Gamma做年终总结PPT怎么用_Gamma做年终总结PPT使用方法详细指南【教程】
AI音频增强和视频背景替换终极指南
高效赋能:在线健身教练必备的七大工具
AI驱动合同管理:Microsoft Power Platform实战指南
2024-04-07
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。