两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

广阔的战场，风暴兵在奔跑……

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

prompt：Wide shot of battlefield, stormtroopers running...

这段时长达1200帧的2分钟视频是由文本生成视频（text-to-video）模型生成的。尽管AI的痕迹仍然显而易见，但其中的人物和场景展现出相当不错的一致性。

这是如何办到的呢？要知道，虽然近些年文生视频技术的生成质量和文本对齐质量都已经相当出色，但大多数现有方法都聚焦于生成短视频（通常是 16 或 24 帧长度）。然而，适用于短视频的现有方法通常无法用于长视频（≥ 64 帧）。

即使是生成短序列，通常也需要成本高昂的训练，比如训练步数超过 260K，批大小超过 4500。如果不在更长的视频上进行训练，通过短视频生成器来制作长视频，得到的长视频通常质量不佳。而现有的自回归方法（通过使用短视频后几帧生成新的短视频，进而合成长视频）也存在场景切换不一致等一些问题。

为了弥补现有方法的不足，Picsart AI Research等多个机构联合提出了一种新的文生视频方法：StreamingT2V。这种方法采用自回归技术，并结合长短期记忆模块，使其能够生成时间连贯性强的长视频。

论文标题：StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
论文地址：https://arxiv.org/abs/2403.14773
项目地址：https://streamingt2v.github.io/

如下是一段 600 帧 1 分钟的视频生成结果，可以看到蜜蜂和花朵都有非常出色的一致性：

因此，团队提出了条件注意力模块（CAM）。CAM利用其注意力机制，能够有效地整合之前帧的信息来生成新的帧，并且能够自如地处理新帧中的运动情况，而不受之前帧结构或形状的限制。

而为了解决生成的视频中人与物外观变化的问题，该团队又提出了外观保留模块（APM）：其可从一张初始图像（锚帧）提取对象或全局场景的外观信息，并使用该信息调节所有视频块的视频生成过程。

为了进一步提升长视频生成的质量和分辨率，该团队针对自回归生成任务对一个视频增强模型进行了改进。为此，该团队选择了一个高分辨率文生视频模型并使用了 SDEdit 方法来提升连续 24 帧（其中有 8 帧重叠帧）视频块的质量。

为了使视频块增强过渡变得平滑，他们还设计了一种随机混合方法，能以无缝方式混合重叠的增强过的视频块。

方法

首先，生成 5 秒时长的 256 × 256 分辨率的视频（16fps），然后将其增强至更高的分辨率（720 × 720）。图 2 展示了其完整的工作流程。

长视频生成部分由初始化阶段（Initialization Stage）和流式文生视频阶段（Streaming T2V Stage）构成。

其中，初始化阶段是使用一个预训练的文生视频模型（比如可以使用 Modelscope）来生成第一个 16 帧的视频块；而流式文生视频阶段则是以自回归方式生成后续帧的新内容。

对于自回归过程（见图 3），该团队新提出的 CAM 可以利用之前视频块最后 8 帧的短期信息，实现块之间的无缝切换。另外，他们还会使用新提出的 APM 模块来提取一张固定锚帧的长期信息，使自回归过程能稳健地应对事物和场景细节在生成过程中的变化。

在生成得到了长视频（80、240、600、1200 或更多帧）之后，他们再通过流式优化阶段（Streaming Refinement Stage）来提升视频质量。这个过程会以自回归方式使用一个高分辨率文生短视频模型（如可使用 MS-Vid2Vid-XL），再搭配上新提出的用于无缝视频块处理的随机混合方法。而且后一步无需额外的训练，这使得该方法无需较高的计算成本。

条件注意力模块

首先，将所使用的预训练文生（短）视频模型记为 Video-LDM。注意力模块（CAM）的构成是一个特征提取器、一个向 Video-LDM UNet 注入的特征注入器。

其中特征提取器使用了逐帧的图像编码器，之后是与 Video-LDM UNet 直到中间层一直使用的一样的编码器层（并通过 UNet 的权重初始化）。

对于特征注入，这里的设计则是让 UNet 中的每个长程跳跃连接通过交叉注意力关注 CAM 生成的相应特征。

外观保留模块

APM 模块可通过使用固定锚帧中的信息来将长期记忆整合进视频生成过程中。这有助于维持视频块生成过程中的场景和对象特征。

为了让 APM 能平衡处理锚帧和文本指令给出的引导信息，该团队做出了两点改进：（1）将锚帧的 CLIP 图像 token 与文本指令的 CLIP 文本 token 混合起来；（2）为每个交叉注意力层引入了一个权重来使用交叉注意力。

自回归视频增强

为了自回归地增强 24 帧的生成视频块，这里使用的是高分辨率（1280x720）的文生（短）视频模型（Refiner Video-LDM，见图 3）。这个过程的做法是首先向输入视频块加入大量噪声，然后再使用这个文生视频扩散模型来进行去噪处理。

不过，这种方法不足以解决视频块之间的过渡不匹配的问题。

为此，该团队的解决方案是随机混合方法。具体详情请参阅原论文。