MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。

随着近两年来扩散模型的快速发展，图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型，已经对设计、游戏等领域产生了巨大的影响

然而，如何根据给定的文本或其他条件，产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷

目前常见的方法可以大致分为两类

第一类方法致力于生成一个场景的图片以及深度图，并得到对应的mesh，如Text2Room，SceneScape——首先用Stable Diffusion生成第一张图片，然后使用图像扭转（Image Warping）和图像补全（image inpainting）的自回归方式生成后续的图片以及深度图。

但是，这样的方案容易导致错误在多张图片的生成过程中逐渐累积，并且通常存在闭环问题（比如在相机旋转一圈回到起始位置附近时，生成的内容与第一张图片并不完全一致），导致其在场景规模较大或图片间视角变化较大时的效果欠佳。

第二类方法通过扩展扩散模型的生成算法，同时生成多张图片，以产生比单张图片更丰富的内容（例如生成360度全景图，或将一张图片的内容向两侧无限外推），例如MultiDiffusion和DiffCollage。然而，由于没有考虑相机模型，这类方法生成的结果并不是真正的全景图

MVDiffusion的目标是生成符合给定相机模型的多视角图片，这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

请点击以下链接查看论文：https://arxiv.org/abs/2307.01097

请访问项目网站：https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

代码：https://github.com/Tangshitao/MVDiffusion

会议发表：NeurIPS（重点）

MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识，产生内容高度一致且全局语义统一的多视角图片

具体地，研究人员对已有的文本-图片扩散模型（如Stable Diffusion）进行拓展，首先让其并行地处理多张图片，并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。

通过在少量的多视角图片训练数据上进行微调，最后得到的模型能够同步生成内容高度一致的多视角图片。

MVDiffusion在三个不同的应用场景中已经取得了很好的效果：

根据文字生成多视图，然后拼接以获得全景图

2. 将透视图像外推（outpainting）得到完整的360度全景图；

3. 为场景生成材质（texture）。

应用场景展示

应用1：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

以生*景图为例，输入一段描述场景的文字，MVDIffusion可以生成一个场景的多视角图片

输入以下内容可以获得8张多视角图片：“这个厨房是乡村与现代的迷人融合，拥有一个大型的回收木岛台带有大理石台面，一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”

这8张图片能够拼接成一张全景图：

MVDiffusion也支持为每张图片提供不同的文字描述，但是这些描述之间需要保持语义上的一致性。

应用2：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图像）

MVDiffusion能够将一张透视图像外推（outpainting）成完整的360度全景图。

举个例子，假设我们输入下面这张透视图：

MVDiffusion能进一步生成下面的全景图：

可以看到，生成的全景图在语义上对输入图片进行了扩展，而且最左和最右的内容是相连的（没有闭环问题）。

应用3：生成场景材质

使用MVDiffusion可以为给定的无材质场景网格生成材质（纹理）

具体地，我们首先通过渲染mesh得到多视角的深度图（depth map），通过相机位姿(pose)以及深度图，我们可以获得多视角图片的像素之间的对应关系。

接着，MVDiffusion以多视角depth map作为条件，同步生成一致的多视角RGB图片。

因为生成的多视角图片能保持内容的高度一致，将它们再投回mesh，即可以得到高质量的带材质的mesh（textured mesh）。

以下是更多的效果示例：

全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用

在这个应用场景中，需要特别提到的是，虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图，而且风格都是单一的

然而，MVDiffusion并没有改变原始的稳定扩散参数，而只是对新加入的Correspondence-aware Attention进行了训练

最后，模型依然能根据给定的文本产生各种不同风格的多视角图片（如室外，卡通等）。

需要进行改写的内容是：单视图外推

场景材质生成

我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程，最后再介绍方法的核心部分，即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览

1. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

MVDiffusion同步生成8张带有重叠的图片（perspective image），然后再将这8中图片缝合（stitch）*景图。在这8张透视图中，每两张图之间由一个3x3单应矩阵（homographic matrix）确定其像素对应关系。

在具体的生成过程中，MVDiffusion首先使用高斯随机初始化来生成8个视角的图片

然后，将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中，进行同步去噪（denoising）得到生成结果。

其中UNet网络中加入了新的「Correspondence-aware Attention」模块（上图中淡蓝色部分），用于学习跨视角之间的几何一致性，使得这8张图片可以被拼接成一张一致的全景图。

2. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图片）

MVDiffusion也可以将单张透视图补全*景图。与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同，MVDiffusion将随机初始化的8个视角图片（包括透视图对应的视角）输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。

在Stable Diffusion Inpainting模型中，与之不同的是，UNet通过使用额外的输入掩码（mask）来区分作为条件的图片和将要生成的图片

透视图对应的视角，掩码设为1，该分支的UNet将直接恢复透视图。而其他视角，掩码设为0，对应分支的UNet将生成新的透视图

同样地，MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。

3. 场景材质生成

MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片，然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。

RGB图片的像素对应关系可以通过深度图和相机位姿得到。

与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样，我们使用多分支UNet，并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。