我们知道,生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图像而非编辑现有图像。为了弥合这一差距,基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,近来文本到视频模型也提出了很多,但使用这些模型进行视频编辑的方法却很少。
在文本指导的视频编辑中,用户提供输入视频以及描述生成视频预期属性的文本 prompt,如下图 1 所示。目标有以下三个方面,1)对齐,编辑后的视频应符合输入文本 prompt;2)保真度,编辑后的视频应保留原始视频的内容,3)质量,编辑后的视频应具备高质量。
可以看到,视频编辑比图像编辑更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保持时间上的一致性。因此,将 SDEdit、Prompt-to-Prompt 等图像级别的编辑方法应用于视频帧上不足以实现很好的效果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在近日谷歌研究院等发表在 arXiv 的一篇论文中,研究者提出了一种新方法 Dreamix,它受到了 UniTune 的启发,将文本条件视频扩散模型(video
diffusion model, VDM)应用于视频编辑。
文中方法的核心是通过以下两种主要思路使文本条件 VDM 保持对输入视频的高保真度。其一不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;其二通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。
微调确保模型了解原始视频的高分辨率属性。对输入视频的简单微调会促成相对较低的运动可编辑性,这是因为模型学会了更倾向于原始运动而不是遵循文本 prompt。研究者提出了一种新颖的混合微调方法,其中 VDM 也在输入视频各个帧的集合上进行微调,并丢弃了它们的时序。混合微调显著提升了运动编辑的质量。
研究者进一步利用其视频编辑模型提出了一个新的图像动画框架,如下图 2 所示。该框架包含了几个步骤,比如为图像中的对象和背景设置动画、创建动态相机运动等。他们通过帧复制或几何图像变换等简单的图像处理操作来实现,从而创建粗糙的视频。接着使用 Dreamix 视频编辑器对视频进行编辑。此外研究者还使用其微调方法进行目标驱动的视频生成,也即 Dreambooth 的视频版本。
在实验展示部分,研究者进行了广泛的定性研究和人工评估,展示了他们方法的强大能力,具体可参考如下动图。
对于谷歌这项研究,有人表示,3D + 运动和编辑工具可能是下一波论文的热门主题。
还有人表示:大家可以很快在预算内制作自己的的电影了,你所需要的只是一个绿幕以及这项技术:
本文提出了一种新的方法用于视频编辑,具体而言:
通过逆向被破坏视频进行文本引导视频编辑
他们采用级联 VDM( Video Diffusion Models ),首先通过下采样对输入视频就行一定的破坏,后加入噪声。接下来是级联扩散模型用于采样过程,并以时间 t 为条件,将视频升级到最终的时间 - 空间分辨率。
在对输入视频进行破坏处理的这一过程中,首先需要进行下采样操作,以得到基础模型(16 帧 24 × 40),然后加入方差为高斯噪声,从而进一步破坏输入视频。
对于上述处理好的视频,接下来的操作是使用级联 VDM 将损坏掉的低分辨率视频映射到与文本对齐的高分辨率视频。这里的核心思想是,给定一个嘈杂的、时间空间分辨率非常低的视频,有许多完全可行的、高分辨率的视频与之对应。本文中基础模型从损坏的视频开始,它与时间 s 的扩散过程具有相同的噪声。然后该研究用 VDM 来逆向扩散过程直到时间 0。最后通过超分辨率模型对视频进行升级。
混合视频图像微调
仅利用输入视频进行视频扩散模型的微调会限制物体运动变化,相反,该研究使用了一种混合目标,即除了原始目标(左下角)之外,本文还对无序的帧集进行了微调,这是通过「masked temporal attention」来完成的,以防止时间注意力和卷积被微调(右下)。这种操作允许向静态视频中添加运动。
推理
在应用程序预处理的基础上(Aapplication Dependent Pre-processing,下图左),该研究支持多种应用,能将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并被变换,合成带有一些相机运动的粗略视频;对于目标驱动视频生成,其输入被省略,单独进行微调以维持保真度。然后使用 Dreamix Video Editor(右)编辑这个粗糙的视频:即前面讲到的,首先通过下采样破坏视频,添加噪声。然后应用微调的文本引导视频扩散模型,将视频升级到最终的时间空间分辨率。
实验结果视频编辑:下图中 Dreamix 将动作改为舞蹈,并且外观由猴子变为熊,但视频中主体的基本属性没有变:
图像到视频:当输入是一张图像时,Dreamix 可以使用其视频先验添加新的移动对象,如下图中添加了在有雾的森林中出现一头独角兽,并放大。
小屋旁边出现企鹅:
目标驱动视频生成:Dreamix 还可以获取显示相同主题的图像集合,并以该主题为运动对象生成新的视频。如下图是一条在叶子上蠕动的毛毛虫:
除了定性分析外,该研究还进行了基线比较,主要是将 Dreamix 与 Imagen-Video、 Plug-and-Play (PnP) 两种基线方法进行对比。下表为评分结果:
图 8 展示了由 Dreamix 编辑的视频和两个基线示例:文本到视频模型实现了低保真度的编辑,因为它不以原始视频为条件。PnP 保留了场景,但不同帧之间缺乏一致性;Dreamix 在这三个目标上都表现良好。
更多技术细节请参阅原论文。
# 提出了
# 视频编辑
# 如下图
# 这一
# 进行了
# 还可以
# 两种
# 级联
# 升级到
# 应用于
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
ChatGPT助力QA测试:提升效率与质量的终极指南
雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】
AI聊天机器人会取代人类吗?深度剖析与未来展望
百度浏览器ai对话怎么关 百度浏览器ai聊天窗口隐藏
千问怎样用提示词获取健康建议_千问健康类提示词注意事项【指南】
探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”
扣子AI怎样设置敏感词过滤_扣子AI过滤规则与自定义词库【技巧】
批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】
Feelin网页版在线入口 Feelin官方网站导航
智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】
AdobeExpressAI智能排版怎么快速生成Logo_AdobeExpressAI智能排版Logo生成入口【步骤】
淋巴按摩终极指南:在家打造紧致透亮肌肤
小型邮件列表的终极指南:使用AI最大化营销效果
教你用AI一键生成Excel VBA脚本,彻底告别重复操作
通义千问怎么找新功能入口_通义千问新功能查找【攻略】
Amazon Rekognition: 图像与视频分析的强大AI工具
利用 ChatGPT 进行高质量代码重构与优化
Sora AI:颠覆视频创作?OpenAI最新文生视频模型深度解析
网络安全警钟:揭秘“美足”背后隐藏的危机与防范
通义千问怎样优化提示词更口语化_通义千问口语化技巧【教程】
途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】
LeetCode算法:最长公共前缀问题全面解析
ChatGPT一键生成PPT怎么加内容_ChatGPTPPT内容添加【方法】
如何用AI一键生成求职简历?AI简历优化与制作工具推荐【干货】
想做自媒体?教你用AI批量生成视频脚本,实现内容自由
Runway Gen-2怎么用 Runway视频生成AI使用教程
AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】
TechInternPath.ai:AI驱动的实习之路,助你梦想成真
百度搜索ai助手怎么关闭 百度搜索ai对话屏蔽方法
Fiverr网站审计终极指南:免费工具、SEO技巧和实战案例
通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】
利用AI赋能教育:学习方式的未来之路
MAKA AI排版怎样设置动画效果_MAKA AI排版动画添加与参数调整【技巧】
OpenAI DevDay 2025:开发者必知的七大AI进展
怎么用ai生成配色方案 AI设计色彩搭配与灵感获取【技巧】
快手本地生活AI如何预约景区火车票_快手AI本地生活抢票步骤【步骤】
Ifor Williams拖车终极指南:农场主的选择和省税秘诀
7个简单高效的面部肌肉锻炼,改善面部不对称,塑造完美脸型
AI赋能音频转录:SovereignAudio自托管解决方案
清洁扫地机器人传感器:解决导航和充电难题
定价3499炒到1.2万,豆包AI手机遭“封杀”,变革之路何去何从?
ChatGPT背后的AI革命:OpenAI的崛起与Google的危机
秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】
AI聊天机器人:朋友还是谄媚者?深度解析与实用建议
识别脱水警告信号:专家解读与健康指南
通义千问网页版怎么清历史_通义千问历史清理方法【方法】
AI项目管理软件如何利用自然语言处理?全面解析
2025年QA工程师必备:五款AI自动化测试工具深度解析
kimi如何导出对话_导出对话内容方法【攻略】
提升效率的AI工具:Jace、Yutori、Dia等效率神器测评
2023-04-12
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。