零障碍合并两个模型,大型ResNet模型线性连接只需几秒,神经网络启发性新研究


深度学习能够取得如此成就,得益于其能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是 NP 困难的,但一些简单的算法,通常是随机梯度下降(SGD)的变体,它们在实际拟合大型神经网络时表现出惊人的有效性。

本文中,来自华盛顿大学的多位学者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他们研究了在深度学习中,SGD 算法在高维非凸优化问题上的不合理有效性。他们受到三个问题的启发:

1. 为什么 SGD 在高维非凸深度学习损失 landscapes 的优化中表现良好,而在其他非凸优化设置中,如 policy 学习、轨迹优化和推荐系统的稳健性明显下降 ?

2. 局部极小值在哪里?在初始化权值和最终训练权值之间进行线性插值时,为什么损失会平滑、单调地减小?

3. 两个独立训练的模型,它们具有不同的随机初始化和数据批处理顺序,为何会实现几乎相同的性能?此外,为什么它们的训练损失曲线看起来一样

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2209.04836.pdf

本文认为:在模型训练中存在一些不变性,这样一来才会有不同的训练表现出几乎相同的性能。

为什么会这样呢?2019 年,Brea 等人注意到神经网络中的隐藏单元具有排列对称性。简单的说就是:我们可以交换网络中隐藏层的任意两个单元,而网络功能将保持不变。2025 年 Entezari 等人推测,这些排列对称可能允许我们在权值空间中线性连接点,而不损害损失。

下面我们以论文作者之一的举例来说明文章主旨,这样大家会更清楚。

假如说你训练了一个 A 模型,你的朋友训练了一个 B 模型,这两个模型训练数据可能不同。没关系,使用本文提出的 Git Re-Basin,你能在权值空间合并这两个模型 A+B,而不会损害损失。

论文作者表示,Git Re-Basin 可适用于任何神经网络(NN),他们首次演示了在两个独立训练(没有预先训练)的模型(ResNets)之间,可以零障碍的线性连通。

他们发现,合并能力是 SGD 训练的一个属性,在初始化时合并是不能工作的,但是会发生相变,因此随着时间的推移合并将成为可能。

他们还发现,模型宽度与可合并性密切相关,即越宽越好。

此外,并非所有架构都能合并:VGG 似乎比 ResNets 更难合并。

这种合并方法还有其他优点,你可以在不相交和有偏差的数据集上训练模型,然后在权值空间中将它们合并在一起。例如,你有一些数据在美国,一些在欧盟。由于某些原因,不能混合数据。你可以先训练单独的模型,然后合并权重,最后泛化到合并的数据集。

因此,在不需要预训练或微调的情况下可以混合训练过的模型。作者表示自己很想知道线性模式连接和模型修补的未来发展方向,可能会应用到联邦学习、分布式训练以及深度学习优化等领域。

最后还提到,章节 3.2 中的权重匹配算法只需 10 秒左右即可运行,所以节省了大量时间。论文第 3 章也介绍了 A 模型与 B 模型单元匹配的三种方法,对匹配算法还不清楚的小伙伴,可以查看原论文。

网友评论及作者解疑

这篇论文在推特上引发了热议,PyTorch 联合创始人 Soumith Chintala 表示如果这项研究可以迁移到更大的设置,则它可以实现的方向会更棒。合并两个模型(包括权重)可以扩展 ML 模型开发,并可能在开源的共同开发模型中发挥巨大作用。

另有人认为如果排列不变性能够这样高效地捕捉大部分等价性,它将为神经网络的理论研究提供启发。

论文一作、华盛顿大学博士 Samuel Ainsworth 也解答了网友提出的一些问题。

首先有人问,「论文中是否有关于在训练中针对独特 basin 的任何提示?如果有一种方法可以做到对排列进行抽象,那么训练速度可能会更快。」

Ainsworth 回复称,这点自己没有想到。他真的希望能够以某种方式实现更快地训练,但目前为止已被证明非常困难。问题在于 SGD 本质上是一种局部搜索,因此利用高阶几何并不是那么容易。也许分布式训练是一种可行的方法。

还有人问是否适用于 RNN 和 Transformers?Ainsworth 表示原则上适用,但他还没有对此进行实验。时间会证明一切。

最后有人提出,「这看起来对分布式训练『成真』非常重要?难道 DDPM(去噪扩散概率模型)不使用 ResNet 残差块吗?」

Ainsworth 回复称,虽然他自己对 DDPM 不是很熟悉,但直言不讳表示将它用于分布式训练将非常令人兴奋。


# 是一种  # 有一  # 更快  # 表现出  # 这两个  # 能在  # 等人  # 适用于  # 你可以  # ai  # 华盛顿  # https  # pytorch  # rnn  # 算法  # git  # 分布式  # 架构 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 教你用AI将一段旋律扩展成一首完整的曲子  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  Tenorshare AI Bypass:终极AI内容人性化工具深度评测  lovemo手机网页版入口 lovemo官网登录网址  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  FeelinAI聊天网页版 Feelin官方网站地址  一键生成PPT工具怎么用_一键生成PPT工具使用方法详细指南【教程】  AI驱动KDP封面设计:NURIE CREATOR教程  如何用 ChatGPT 快速生成短视频分镜脚本  Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】  AI视频创作终极指南:文本到视频的免费工具与技巧  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】  千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  lovemo网页版地址 lovemo官网手机登录  提升企业效率:QR Platform管理后台功能全面解析  Gemini怎样连接Google账号_Gemini账号连接方法【方法】  Semrush AI标题生成器:免费提升SEO和内容创作效率  GravityWrite:AI驱动的内容创作,提升排名和效率  Google AI 在教育领域个性化学习路径的构建  Pictory AI视频制作平台深度评测:功能、价格与使用指南  AI加持:2025年最佳人工智能潜在客户生成工具  美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】  DeepSeek V3 本地部署对硬件要求的详细说明  Weavernote:AI驱动的知识管理与高效笔记应用  ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法  CallidusAI:提升合同起草效率的智能Word插件指南  AI落地页优化:3个技巧,转化率飙升!  文心一言如何做本地生活探店文案 文心一言内容种草指南  Canva AI工具教程:动漫化图像、生成艺术与定制QR码  豆包 AI 辅助进行精简版个人周报撰写技巧  支付宝出行AI能否自动抢票_支付宝AI出行抢票设置与免密支付【方法】  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】  lovemo网页版直接进入 lovemo官网在线登录  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  C3.ai深度解析:投资者必知的关键洞察  打造AI Jarvis:停止功能、联网、中文与人脸集成  AI朋友圈文案生成工具有哪些_一键生成营销文案的AI工具推荐  钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】  tofai官方网站入口 tofai在线网页版登录  动态规划解题:攀登楼梯的独特方法与技巧  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  MAKA AI排版怎样设置动画效果_MAKA AI排版动画添加与参数调整【技巧】  腾讯混元图像3.0上线LiblibAI,80B参数助力创作者高效出图  11月问界汽车哪里卖的多?成都力压北上广深位居第一  AI赋能科研探索:Google Research创新加速科学发现  宠物翻译App评测:与猫狗交流的未来科技?  终极游戏工作站:帝王蝎椅沉浸式体验评测  DeepSeek辅助撰写专利申请 DeepSeek技术创新文档写作 

 2023-04-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.