神经网络超体?新国立LV lab提出全新网络克隆技术


在电影中,随着女主角 Lucy 脑力的逐渐开发,她获得了以下能力:

  • 10%:能够控制身体的自主神经系统,提高身体协调能力和反应速度。
  • 30%:能够预测未来并预测人们的行动,提高洞察力和判断力。
  • 50%:能够通过感知周围环境的微小变化来预测未来的变化。
  • 70%:能够控制身体和物体的运动,拥有超凡的运动和战斗技能。
  • 90%:能够与宇宙和时间相连,拥有灵感和直觉的力量。
  • 100%:能够实现超自然的力量,超越了人类的认知极限。

在电影的结尾,女主逐渐消失并变成了一种纯粹的能量形态,最终消失在宇宙中,与宇宙和时间融为一体。人类超体的实现即为连通外界,以获取无限值的能力。将此思想迁移到神经网络域,若能建立与整个网络的连通,即也可实现网络超体, 理论上将获得无边界的预测能力

即实体化的网络必然会限制网络性能的增长,而将目标网络与 Model Zoo 进行连通,此时网络不再具备实体,而是一种建立起网络之间的连通超体形态。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图上:超体网络和实体网络的区别。超体网络无实体,是一种网络之间的连通形式

该网络超体的思想在本文分享 CVPR 2025 论文《Partial Network Cloning》,中得以探索。在该论文中,新加坡国立大学 LV lab 提出一种全新的网络克隆技术。

链接:https://arxiv.org/abs/2303.10597

01 问题定义

在该文中,作者提到利用该网络克隆技术实现网络去实体化可以带来以下优势:

  • 弱数据依赖:只需要部分修正数据对一些连接模块进行修改
  • 低训练复杂度:仅需 fine-tune 一些连接模块和任务预测模块
  • 低存储需求:仅需存储网络的连通路径,无需存储整个网络
  • 可持续可恢复:连通路径可增可减,不对 Model Zoo 进行任何修改
  • 传输友好:在网络传输时仅需传输连通路径信息,无需对整个网络传输

超体网络的实现基础为迅速扩张的 Model Zoo,海量预训练模型可供使用。因此对于任意任务 T,我们总能找到一个或多个模型,使得这些已有模型的任务能组成成所需求任务。即:

(选择了三个网络进行连通)。

如上图所示,对于任务 T,为了构建对应的超体网络 M_c , 本文提出以下的构建框架:

  • 步骤一:定位最合适的本体网络 M_t ,使得本体网络 M_t 的任务集 T_t 与所需任务集 T 的交集 T⋂T_t 最大,此时本体网络被设定为主网络;
  • 步骤二:选择修正网络 M_s^1 和 M_s^2,对本体网络中缺失的部分任务进行补充;
  • 步骤三:利用网络克隆技术定位和连通部分修正网络 M_s^1 和 M_s^2 至本体网络 M_t;
  • 步骤四:利用部分修正数据对网络的连通模块和预测模块进行 fine-tune。

综上所述,本文提出的构建网络超体所需的网络克隆技术可以被表示为:

其中 M_s  表示修正网络集合,因此网络超体的连通形式为一个本体网络加上一个或若干个修正网络,网络克隆技术就是克隆所需要的部分修正网络,嵌入至本体网络中。

具体来说,本文提出的网络克隆框架包括以下两个技术要点:

对于包含有 P 个修正网络的克隆,第一个技术要点为关键部分定位 Local (∙)。由于修正网络可能会含有与任务集 T 无关的任务信息,关键部分定位 Local (∙) 的目标为定位修正网络中与任务 T⋂T_s 相关的部位,定位参数用 M^ρ 表示,实现细节在第 2.1 小节中给出。第二个技术要点为网络模块嵌入 Insert (∙),需选择合适的网络嵌入点 R^ρ 嵌入所有的修正网络,实现细节在第 2.2 小节中给出。

02 方法总览

在网络克隆的方法部分,为了简化叙述,我们设定修正网络的数量 P=1(因此省略了修正网络的上标 ρ),即我们连通一个本体网络和一个修正网络来搭建所需的超体网络。

如上文所述,网络克隆包含关键部分定位和网络模块嵌入。在这里,我们引入中间的可迁移模块 M_f 用以辅助理解。即,网络克隆技术在修正网络中定位关键部位形成可迁移模块 M_f,再将可迁移模块通过软连接嵌入至本体网络 M_t。因此,网络克隆技术的目标为定位和嵌入具有可迁移性和局部保真性的可迁移模块

2.1 网络关键部位定位

网络关键部位定位的目标是学习选择函数 M,选择函数 M 在这里被定义为作用于网络每一层 filter 的 mask。此时的可迁移模块可以被表示为:

在上式中,我们将修正网络 M_s 表示为 L 层,每一层表示为。已知可迁移模块的提取不对修正网络做任何修改。

为了得到合适的可迁移模块 M_f,我们定位修正网络 M_s 中对最终预测结果做出最大贡献的显式部分。在此之前,考虑到神经网络的黑盒特性,且我们只需要网络的部分预测结果,因此我们利用 LIME 拟合修正网络在所需任务的局部建模(具体细节请查看论文正文)。

局部建模结果用来表示,其中 D_t 是所需的部分预测结果对应的训练数据集(小于原始网络的训练集)。

因此选择函数 M 可以通过以下目标函数进行优化:

在该式中,定位的关键部分拟合局部建模的 G。

2.2 网络模块嵌入

在修正网络中定位可迁移模块 M_f 时,使用择函数 M 直接从 M_s 中提取,无需修改其权重。下一步是决定在本体网络 M_t  中可迁移模块 M_f 的嵌入位置,以获得最佳的克隆性能。

网络模块的嵌入由位置参数 R 控制。遵循大多数模型重用设置,网络克隆将本体模型的前几层保留为通用特征提取器,网络嵌入过程被简化为查找最佳嵌入位置(即在第 R 层嵌入可迁移模块 M_f)。查找嵌入的过程可以表示为:

详细的公式解释请查询正文。总体来说,基于搜索的嵌入包括以下要点:

  • 最佳位置参数 R 搜索的过程从网络的深层到浅层;
  • 在第 R 层进行可迁移性模块嵌入后的超体网络后,还需额外引入嵌入位置的 Adapter A 和重新 finetune F_c 层(对于分类网络来说),但两者的参数量相较于整个 model zoo 可以忽略不计;
  • 当从网络的第 L-1 层至第 0 层建立起连接后,我们粗略的根据每一次 fine-tune 的 loss 收敛值估计嵌入的性能,选取最小收敛值点作为最终的网络嵌入点。

03 网络克隆技术的实际应用

本文提出的网络克隆技术的核心为建立起预训练网络之间的连通路径,不需要对预训练网络进行任何参数的修改,它除了可以用作搭建网络超体的关键技术,也能被灵活的运用到各种实际场景中。

场景一:网络克隆技术使得 Model Zoo 在线使用成为可能。在一些资源有限的情况下,用户可以在不下载预训练网络到本地的情况下灵活地利用在线的 Model Zoo。

注意到克隆后的模型是由确定的,其中 M_t  和M_s 在整个过程中都是固定且不变的。模型克隆对预训练模型上没有进行任何修改,也没有引入新模型。模型克隆使得 Model Zoo 中任何功能组合都成为可能,这也有助于维护 Model Zoo 的良好生态环境,因为建立连接使用 M 和 R 是一种简单的 mask 和定位操作,易于撤销。因此,提出的网络克隆技术支持建立一个可持续的 Model Zoo 在线推理平台。

场景二:经由网络克隆生成的网络具备更好的信息传输形式。当进行网络传输时,该技术可以减少传输延迟和损失。

在进行网络传输时,我们只需要传输集合,结合公共 Model Zoo,接收方可以恢复出原始网络。与整个克隆后的网络相比,非常小,因此可以减少传输延迟。如若 A 和 F_c 仍然存在一些传输损失,接收方可以通过在数据集上进行 fine-tune 来轻松修复。因此,网络克隆为高效传输提供了一种新形式的网络。

04 实验结果

我们在分类任务上进行了实验验证。为了评估可迁移模块的局部性能表征能力,我们引入了条件相似性指标:

其中 Sim_cos (∙) 表示余弦相似性。

上表中给出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的实验结果,可以看出网络克隆(PNC)得到的模型的性能提升最为显著。且若进行整个网络的 fine-tune(PNC-F)并不会带来网络性能的提升,相反,它会增加模型的 bias。

除此之外,我们对可迁移模块的质量进行了评估(如上图)。从图(左)可以看出,从每个子数据集中学习的每个功能或多或少是相关的,这显示出从修正网络中提取和定位局部功能的重要性。对于可迁移模块,我们计算其相似度 Sim (∙)。图(右)显示,可迁移模块与待克隆的子数据集在相似性上很高,其与其余子数据集的关系被削弱(非对角线区域用比源网络的矩阵图浅的颜色标记)。因此,可以得出结论,可迁移模块成功地模拟了要克隆的任务集上的局部性能,证明了定位策略的正确性。

05 总结

本文研究了一种新的知识转移任务,称为部分网络克隆(PNC),它以复制粘贴的方式从修正网络中克隆参数模块并将其嵌入到本体网络中。与以往的知识转移设置不同(它们依赖于更新网络的参数)我们的方法保证所有预训练模型的参数不变。PNC 的技术核心为同时进行网络关键部位定位和可迁移模块嵌入操作,两个步骤相互加强。

我们在多个数据集上展示了我们的方法在准确性和可迁移性指标的突出结果。


# ai  # 神经网络  # Filter  # https  # 所需  # 迁移性  # 只需要  # 网络传输  # 建立起  # 在这里  # 是一种  # 仅需  # 多个  # 整个网络 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: GitHub Copilot与Azure AI Foundry模型:加速AI编程实践  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  AI同伴的未来:超越工具,迈向情感连接与个人成长  AI驱动的Web应用测试:突破QA挑战,提升用户体验  MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  System of a Down:深度剖析《Hypnotize》歌词  Xeon E5-2667 V2性能评测:老平台焕发新生,游戏与工作负载表现分析  豆包AI怎么优化年终总结语言_豆包AI文案润色与正式语气调整【指南】  免费高效获客!ChatGPT助你快速生成潜在客户名单  Gemini怎样连接Google账号_Gemini账号连接方法【方法】  百度APP搜索框ai怎么关 百度APP搜索框ai图标去除  如何用AI生成正则表达式?再也不怕复杂的文本匹配  解锁 Gemini Gems 高级用法:打造专属 AI 专家助手  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】  终极人声移除器UVR5:AI驱动的免费开源音频处理神器  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  批改网AI检测工具怎样批量检测作文_批改网AI检测工具批量上传与处理流程【攻略】  ChatGPT 4o 辅助学生复习 GRE 词汇的方法  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  ASUS Armoury Crate深度评测:最新功能与个性化定制  提升效率的AI工具:Jace、Yutori、Dia等效率神器测评  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  AI驱动音频优化:提升音质的终极指南  教你用AI一键去除图片水印,操作简单效果惊人  使用 DeepSeek 进行网络协议栈分析与优化建议  Gemini 辅助进行多平台社交媒体内容调度  lovemo官网入口直达 lovemo网页版在线使用  教你用AI进行市场调研,快速生成消费者洞察报告  探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  ChatGPT怎样用提示词模拟专家视角_ChatGPT专家视角设置【指南】  智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】  小型邮件列表的终极指南:使用AI最大化营销效果  利用 ChatGPT 进行复杂数学公式的推导教程  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  Google NotebookLM:AI赋能的智能笔记与思维导图工具  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  趣味 Phonics:轻松掌握 CVC 单词拼读技巧  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  如何用AI帮你分析用户评论?3步挖掘用户真实需求  AI论文写作终极指南:DeepSeek与HIX Bypass结合使用教程  即梦ai怎么生成游戏角色原画_即梦ai游戏角色生成风格与装备细节【教程】  豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程  AI视频播客制作终极指南:告别繁琐编辑,轻松发布!  Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程  AI赋能招聘:高级策略助你领先猎头行业  百度AI助手官方入口 文心一言网页版登录入口  百度浏览器侧边栏ai怎么关 百度浏览器ai侧边栏隐藏 

 2023-05-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.