你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。
近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。
最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。
为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。
本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:
该研究还能根据目标生成动作:
此外,还能进行边缘检测:
本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。
为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。
尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。
本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。
在这篇论文中,本文利用 stable diffusion (sd)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。针对视频生成而非图像生成的需求,sd 应专注于潜在代码序列的操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即
N (0, I) ,并应用 DDIM 采样以获得相应的张量
,其中 k = 1,…,m,然后解码以获得生成的视频序列 。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享所描述的语义,而不具有物体外观或运动的一致性。
为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。
注意,为了简化符号,本文将整个潜在代码序列表示为:
定性结果
Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。
在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。
在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。
与 Baseline 比较
本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。
为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个
视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。
图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。
Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。
虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。
# 如图
# 所示
# 见图
# 高质量
# 情况下
# 舞者
# 一只
# 还能
# 将其
# 实现了
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】
CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量
DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】
YouTube SEO优化:AI驱动的标题生成工具详解
Straico团队案例研究:AI赋能,效率提升的秘诀
使用AI配乐:ElevenLabs Music音乐生成器终极指南
XRAI Glass:AI赋能的增强现实眼镜,对话新体验
如何用AI生成正则表达式?再也不怕复杂的文本匹配
Notta AI: 提升效率的智能会议纪要工具
AI图像生成平台深度对比:Midjourney vs. Stable Diffusion
利用 ChatGPT 设计高效的个人健身与饮食计划
智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】
AI网页生成工具有哪些_一键生成企业官网的AI工具推荐
清洁扫地机器人传感器:解决导航和充电难题
使用AI简化多机位播客视频编辑:Eddie AI全面指南
DiagramMagic:AI驱动的在线图表生成器终极指南
百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】
AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答
轻松生成二维码:免费AI工具终极指南
AI代码助手的崛起:软件工程的未来展望与实用指南
N8N自动化营销:无需编程实现AI智能获客
AI写作工具检测:学生如何避免学术不端行为
唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】
grokai如何生成动态图表_grokai动态图表生成工具使用及数据可视化技巧
AI虚拟女友:终极浪漫伴侣还是数字陷阱?
AI游戏革命:文本驱动,无限可能
美食ASMR:感官盛宴与解压体验
百度输入法怎么去除ai模块 百度输入法纯净版安装教程
AI音频增强和视频背景替换终极指南
百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧
AI Lead Generation: 解锁未来增长引擎,营销新纪元
简历没回改:利用AI润色让你的文字更专业
Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】
Brevio AI:利用AI代理提升电商营销效果
股票 vs. ETF:解锁股市财富密码,新手投资完全指南
kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存
AI无镜头相机Paragraphica:颠覆传统摄影的新方式
优化《现代战争2》色彩:提升游戏视觉体验终极指南
法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战
讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】
Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】
3步教你用AI自动分类文件,整理电脑告别杂乱
SteosVoice:电报语音克隆终极教程
打造AI Jarvis:停止功能、联网、中文与人脸集成
千问如何切换回答风格_千问风格选择正式口语等【实操】
Azure AI 文本分类指南:自定义模型,提高文本分析精度
使用 Claude 4 和 n8n 实现 AI 工作流自动化
MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南
kimi如何收藏回答_收藏功能使用方法【技巧】
ChatGPT一键生成PPT怎么加目录_ChatGPTPPT目录添加【步骤】
2023-05-20
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。