逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。
随着近两年来扩散模型的快速发展,图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型,已经对设计、游戏等领域产生了巨大的影响
然而,如何根据给定的文本或其他条件,产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷
目前常见的方法可以大致分为两类
第一类方法致力于生成一个场景的图片以及深度图,并得到对应的mesh,如Text2Room,SceneScape——首先用Stable Diffusion生成第一张图片,然后使用图像扭转(Image Warping)和图像补全(image inpainting)的自回归方式生成后续的图片以及深度图。
但是,这样的方案容易导致错误在多张图片的生成过程中逐渐累积,并且通常存在闭环问题(比如在相机旋转一圈回到起始位置附近时,生成的内容与第一张图片并不完全一致),导致其在场景规模较大或图片间视角变化较大时的效果欠佳。
第二类方法通过扩展扩散模型的生成算法,同时生成多张图片,以产生比单张图片更丰富的内容(例如生成360度全景图,或将一张图片的内容向两侧无限外推),例如MultiDiffusion和DiffCollage。然而,由于没有考虑相机模型,这类方法生成的结果并不是真正的全景图
MVDiffusion的目标是生成符合给定相机模型的多视角图片,这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
请点击以下链接查看论文:https://arxiv.org/abs/2307.01097
请访问项目网站:https://mvdiffusion.github.io/
Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion
代码:https://github.com/Tangshitao/MVDiffusion
会议发表:NeurIPS(重点)
MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识,产生内容高度一致且全局语义统一的多视角图片
具体地,研究人员对已有的文本-图片扩散模型(如Stable Diffusion)进行拓展,首先让其并行地处理多张图片,并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。
通过在少量的多视角图片训练数据上进行微调,最后得到的模型能够同步生成内容高度一致的多视角图片。
MVDiffusion在三个不同的应用场景中已经取得了很好的效果:
根据文字生成多视图,然后拼接以获得全景图
2. 将透视图像外推(outpainting)得到完整的360度全景图;
3. 为场景生成材质(texture)。
以生*景图为例,输入一段描述场景的文字,MVDIffusion可以生成一个场景的多视角图片
输入以下内容可以获得8张多视角图片:“这个厨房是乡村与现代的迷人融合,拥有一个大型的回收木岛台带有大理石台面,一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”
这8张图片能够拼接成一张全景图:
MVDiffusion也支持为每张图片提供不同的文字描述,但是这些描述之间需要保持语义上的一致性。
MVDiffusion能够将一张透视图像外推(outpainting)成完整的360度全景图。
举个例子,假设我们输入下面这张透视图:
MVDiffusion能进一步生成下面的全景图:
可以看到,生成的全景图在语义上对输入图片进行了扩展,而且最左和最右的内容是相连的(没有闭环问题)。
使用MVDiffusion可以为给定的无材质场景网格生成材质(纹理)
具体地,我们首先通过渲染mesh得到多视角的深度图(depth map),通过相机位姿(pose)以及深度图,我们可以获得多视角图片的像素之间的对应关系。
接着,MVDiffusion以多视角depth map作为条件,同步生成一致的多视角RGB图片。
因为生成的多视角图片能保持内容的高度一致,将它们再投回mesh,即可以得到高质量的带材质的mesh(textured mesh)。
以下是更多的效果示例:
全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用
在这个应用场景中,需要特别提到的是,虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图,而且风格都是单一的
然而,MVDiffusion并没有改变原始的稳定扩散参数,而只是对新加入的Correspondence-aware Attention进行了训练
最后,模型依然能根据给定的文本产生各种不同风格的多视角图片(如室外,卡通等)。
需要进行改写的内容是:单视图外推
场景材质生成
我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程,最后再介绍方法的核心部分,即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览
MVDiffusion同步生成8张带有重叠的图片(perspective image),然后再将这8中图片缝合(stitch)*景图。在这8张透视图中,每两张图之间由一个3x3单应矩阵(homographic matrix)确定其像素对应关系。
在具体的生成过程中,MVDiffusion首先使用高斯随机初始化来生成8个视角的图片
然后,将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中,进行同步去噪(denoising)得到生成结果。
其中UNet网络中加入了新的「Correspondence-aware Attention」模块(上图中淡蓝色部分),用于学习跨视角之间的几何一致性,使得这8张图片可以被拼接成一张一致的全景图。
MVDiffusion也可以将单张透视图补全*景图。与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同,MVDiffusion将随机初始化的8个视角图片(包括透视图对应的视角)输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。
在Stable Diffusion Inpainting模型中,与之不同的是,UNet通过使用额外的输入掩码(mask)来区分作为条件的图片和将要生成的图片
透视图对应的视角,掩码设为1,该分支的UNet将直接恢复透视图。而其他视角,掩码设为0,对应分支的UNet将生成新的透视图
同样地,MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。
MVDiffusion
首先基于深度图以及相机位姿生成一条轨迹上的RGB图片,然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。
RGB图片的像素对应关系可以通过深度图和相机位姿得到。
与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样,我们使用多分支UNet,并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。
「Correspondence-aware Attention」(CAA),是MVDiffusion的核心,用于学习多视图之间的几何一致性和语义统一性。
MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。
对于源特征图中的一个位置,我们基于目标特征图中的对应像素及其邻域来计算注意力输出。
具体来说,对于每个目标像素t^l,MVDiffusion会通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域,其中|dx|表示在x方向上的位移大小,|dy|表示在y方向上的位移大小
在实际应用中,MVDiffusion算法使用K=3,并选择9点邻域来提高全景图的质量。然而,在生成受几何条件限制的多视图图像时,为了提高运行效率,选择使用K=1
CAA模块的计算遵循标准的注意力机制,如上图的公式所示,其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重;目标特征不位于整数位置,而是通过双线性插值获得的。
关键的区别是基于源图像中的对应位置s^l与s之间的2D位移(全景)或1D深度误差(几何)向目标特征添加了位置编码。
在全景生成中(应用1和应用2),这个位移提供了本地邻域中的相对位置。
而在深度到图像生成中(应用3),视差提供了关于深度不连续或遮挡的线索,这对于高保真图像生成非常重要。
请注意,位移是一个包含2D(位移)或1D(深度误差)向量的概念。MVDiffusion将标准频率编码应用于位移的x和y坐标
# ai
# map
# github
# 算法
# stable diffusion
# https
# 全景图
# 多张
# 涉及到
# 创建一个
# 图中
# 的是
# 是一个
# 闭环
# 设为
# 掩码
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
豆包AI怎么做数据分析 豆包AI数据处理入门教程
百度输入法怎么去除ai模块 百度输入法纯净版安装教程
智行ai抢票怎么选优先车次_智行ai抢票车次优先级设置技巧【指南】
ChatGPT 4o图像生成器:免费AI绘画技巧与应用
3步教你用AI总结会议录音,再也不怕错过重点
DeepSeek编程怎么用_DeepSeek编程使用方法详细指南【教程】
教你用AI将长视频内容切片,并自动生成短视频文案
Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】
YouTube SEO优化:AI驱动的标题生成工具详解
SteosVoice:电报语音克隆终极教程
股票 vs. ETF:解锁股市财富密码,新手投资完全指南
AI复古风照片编辑教程:Gemini AI轻松打造复古时尚
VideoGen教程:AI视频生成器,无需拍摄快速制作视频
免费涨粉秘籍:Instagram快速提升技巧,告别粉丝流失
百度ai助手怎么取消 百度ai助手取消显示设置
ChatGPT打造AI助手:10倍提升效率,掌控你的生活
如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧
Canva AI工具教程:动漫化图像、生成艺术与定制QR码
如何利用文心一言优化知乎高赞回答的逻辑结构
OpenArt:终极AI内容创作平台,图像、视频和角色一致性
E-LabVine:AI赋能的数字化学习平台,提升高中学业表现
AI Buildr: 构建 AI 应用的终极指南
创客贴AI排版如何批量处理图文_创客贴AI排版批量操作与效率提升【方法】
利用AI自动化生成电子书:Make.com的终极教程
唐库AI拆书工具如何批量导出笔记_唐库AI拆书工具批量导出与格式转换【方法】
钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】
使用ChatGPT快速生成专辑封面:AI艺术创作指南
AI虚拟女友:终极浪漫伴侣还是数字陷阱?
通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】
AI面试助手:提升招聘效率的终极工具
啦啦队女孩:青春活力与性感魅力的完美结合
AI赋能音频转录:SovereignAudio自托管解决方案
构建卓越的AI驱动测试自动化框架:QA工程师指南
微信AI数字人如何设置工作时间_微信AI数字人时段开关与值班安排【实操】
Replika AI:情感慰藉还是虚拟危机?深度剖析与用户反馈
lovemo手机网页版入口 lovemo官网登录网址
揭秘面部和谐:打造完美脸型的终极指南
高效赋能:在线健身教练必备的七大工具
2025 YouTube自动化终极指南:利用AI实现高效内容创作和多平台发布
AI人像摄影新纪元:Gemini AI助力照片编辑
AI海报设计终极指南:免费智能工具,手机轻松搞定!
Ignite & Sell Assistant:AI 邮件营销终极指南
AI如何变革法律行政助理角色?未来发展趋势分析
ChatGPT背后的AI革命:OpenAI的崛起与Google的危机
MagicAnimate怎么让图片动起来 字节跳动MagicAnimate配置及用法【教程】
2025年AI招聘大师班:初学者友好且功能强大
人工智能时代:你需要知道的真相和未来趋势
通义千问网页版怎么清历史_通义千问历史清理方法【方法】
AI员工工具详解:添加与移除指南,提升效率
文本分类:生成模型与朴素贝叶斯算法的全面指南
2023-10-04
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。