生成视频如此简单,给句提示就行,还能在线试玩


你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。

近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。

最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。

为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。

本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文地址:https://arxiv.org/pdf/2303.13439.pdf
  • 项目地址:https://github.com/Picsart-AI-Research/Text2Video-Zero
  • 试用地址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:

该研究还能根据目标生成动作:

此外,还能进行边缘检测:

本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。

为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。

尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。

本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。

在这篇论文中,本文利用 stable diffusion (sd)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。针对视频生成而非图像生成的需求,sd 应专注于潜在代码序列的操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即

 N (0, I) ,并应用 DDIM 采样以获得相应的张量

,其中 k = 1,…,m,然后解码以获得生成的视频序列

。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享

所描述的语义,而不具有物体外观或运动的一致性。

为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码

之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。

注意,为了简化符号,本文将整个潜在代码序列表示为:

实验

定性结果

Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。

在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。

在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。

与 Baseline 比较

本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。

为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。

图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。

Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。

虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。


# 如图  # 所示  # 见图  # 高质量  # 情况下  # 舞者  # 一只  # 还能  # 将其  # 实现了 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  YouTube SEO优化:AI驱动的标题生成工具详解  Straico团队案例研究:AI赋能,效率提升的秘诀  使用AI配乐:ElevenLabs Music音乐生成器终极指南  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  如何用AI生成正则表达式?再也不怕复杂的文本匹配  Notta AI: 提升效率的智能会议纪要工具  AI图像生成平台深度对比:Midjourney vs. Stable Diffusion  利用 ChatGPT 设计高效的个人健身与饮食计划  智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】  AI网页生成工具有哪些_一键生成企业官网的AI工具推荐  清洁扫地机器人传感器:解决导航和充电难题  使用AI简化多机位播客视频编辑:Eddie AI全面指南  DiagramMagic:AI驱动的在线图表生成器终极指南  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  轻松生成二维码:免费AI工具终极指南  AI代码助手的崛起:软件工程的未来展望与实用指南  N8N自动化营销:无需编程实现AI智能获客  AI写作工具检测:学生如何避免学术不端行为  唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】  grokai如何生成动态图表_grokai动态图表生成工具使用及数据可视化技巧  AI虚拟女友:终极浪漫伴侣还是数字陷阱?  AI游戏革命:文本驱动,无限可能  美食ASMR:感官盛宴与解压体验  百度输入法怎么去除ai模块 百度输入法纯净版安装教程  AI音频增强和视频背景替换终极指南  百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧  AI Lead Generation: 解锁未来增长引擎,营销新纪元  简历没回改:利用AI润色让你的文字更专业  Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】  Brevio AI:利用AI代理提升电商营销效果  股票 vs. ETF:解锁股市财富密码,新手投资完全指南  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  AI无镜头相机Paragraphica:颠覆传统摄影的新方式  优化《现代战争2》色彩:提升游戏视觉体验终极指南  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  3步教你用AI自动分类文件,整理电脑告别杂乱  SteosVoice:电报语音克隆终极教程  打造AI Jarvis:停止功能、联网、中文与人脸集成  千问如何切换回答风格_千问风格选择正式口语等【实操】  Azure AI 文本分类指南:自定义模型,提高文本分析精度  使用 Claude 4 和 n8n 实现 AI 工作流自动化  MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南  kimi如何收藏回答_收藏功能使用方法【技巧】  ChatGPT一键生成PPT怎么加目录_ChatGPTPPT目录添加【步骤】 

 2023-05-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.