多模态视频编辑,允许通过文本、图像、音频等多种输入方式来控制生成和编辑视频内容,显著提升了创作的灵活性和效率。
论文阅读
2025以来的视频编辑方法
[[VideoPainter Any-length Video Inpainting and Editing with Plug-and-Play Context Control]] 2025.07.26
- 重点关注video inpainting、editing
- 数据集构建pipeline ![[Pasted image 20250908170201.png|500]]
- 公开了一个目前最大的video inpainting数据集,包含mask和caption
[[Phantom Subject-consistent video generation via cross-modal alignment]] 2025.4.10
提出多主体一致性视频生成框架,以及cross-pair数据的的构建pipeline ![[Pasted image 20250908154609.png]]
[[Multi-subject Open-set Personalization in Video Generation]] 2025.3.20
[[VACE All-in-One Video Creation and Editing]] 2025.3.11
相关topic:
- shape-aware video editing
- handcrafted motion controls
VACE中的参考类型:
关键帧(生成视频中的特定位置要和参考图片一样)
参考图(主体一致性)
mask
灰度图(重新上色)![[Pasted image 20250907162306.png|500]]
深度图
光流图
边缘图 / 手绘线稿
布局图 layout ![[Pasted image 20250907162246.png|500]]
骨骼关键点 / 面部关键点 pose
[[Videograin Modulating space_time attention for multi-grained video editing]] 2025.02.24
图片编辑
[[Step1X_Edit A Practical Framework for General Image Editing]]
2025 以前的方法
[[Magicstick-Controllable video editing via control handle transformations]] 2024.11.18
editing of complex properties, including shape, size, and location of objects
[[Portrait Video Editing Empowered by Multimodal Generative Priors]]2024.09.20
PortraitGen:专注于人像视频编辑,通过动态3D高斯场 (3DGS) 和 SMPL-X模型 表示人像,确保了编辑过程中的三维和时间一致性。其神经高斯纹理机制提升了渲染质量和编辑的复杂性。该技术特别擅长于文本或图像驱动的肖像风格化、重光照等任务。
数据集
CVPR 2023 text guided video editing competition
We follow a similar protocol in our LOVEU-TGVE-2023 dataset. Our dataset consists of 76 videos. Each video has 4 editing prompts. All videos are creative commons licensed. Each video consists of either 32 or 128 frames, with a resolution of 480x480.
市场产品调研
| 技术/模型名称 | 发布机构/团队 | 核心创新与特点 | 主要应用场景 | 链接 |
|---|---|---|---|---|
| Gemini 2.5 Flash Image(Nano Banana) | 图像编辑,可以实现: - 多主体一致性 - 手绘参考、线条图参考 - 分割能力 - 3D建模能力 - 老照片修复 | 「香蕉革命」首揭秘!谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型 | ||
| Runway Aleph | Runway | 多模态、上下文感知的统一模型,支持通过示例学习和自然语言指令进行复杂视频编辑。 | - 改变镜头视角 - 改变打光角度、光源类型 - 改变天气 - 改变主体颜色等 | https://runwayml.com/research/introducing-runway-aleph |
| 可灵AI (Kling) | 快手 | 推出多模态视觉语言(MVL)交互理念,支持图像、视频、声音等多参考输入进行视频编辑与生成。 | 短视频创作、影视制作、广告营销、游戏 | |
| VACE | Ali | |||
| 海螺AI | MiniMax | 只有人物的单主体一致性 | ||
Data Pipeline 处理方法总结
提取图像边界 [[HED(Holistically-Nested Edge Detection,全嵌套边缘检测)算法|HED]] Boundary SAM2 RAFT Recognize anything: A strong image tagging model ZeoDepth(深度估计) BiRefNet(前景分离)
VLM:
- Florence-2 Step1X_Edit用来做
多模态视频编辑的核心技术原理
多模态视频编辑的核心在于模型能够同时理解并处理多种形式的输入信息(如文本描述、参考图像、音频波形、控制信号等),并基于这些信息对视频内容进行生成、修改或增强。其关键技术要素包括:
- 多模态条件控制与融合:先进的模型通过解耦的交叉注意力机制(Decoupled Cross-Attention)分别处理文本和图像条件输入,实现对视频外观、风格、主题的精确控制。例如,MoonShot模型通过其多模态视频块(MVB) 结构,同时接受图像和文本输入,通过交叉注意力层调控生成内容的外观和语义。
- 保持时间一致性与空间连贯性:这是视频编辑区别于图像编辑的核心挑战。许多研究通过引入3D表示(如3D高斯溅射)或时序注意力机制来确保帧与帧之间的平滑过渡。例如,PortraitGen将视频帧映射到统一的动态3D高斯场,有效保持了编辑后视频的结构和时间连贯性。
- 精确的空间与运动控制:为了实现对视频中特定区域或对象的编辑,模型需要支持精细的控制信号。
- 基于预训练控制网络:例如,MoonShot可以直接集成预训练的图像ControlNet,实现对生成视频几何构图的控制,而无需为视频任务重新训练。
- 通过音频驱动:阿里开源的Wan2.2-S2V模型能够根据输入的音频(如说话、唱歌),生成口型、表情和肢体动作高度同步的视频,适用于数字人创作。
应用前景
多模态视频编辑技术已渗透到多个领域:
- 专业影视与广告制作:用于快速生成分镜、预演、特效元素替换(如《新世界加载中》AI短剧)、角色年轻化/老龄化修改等,大幅降本增效。
- 短视频与社交媒体内容创作:普通用户和创作者可以使用这些工具轻松进行视频换风格、换背景、添加趣味元素、为静态图片添加动态效果等。
- 电商与营销:自动化生成商品展示视频、创建虚拟主播进行24小时直播、制作个性化广告素材等。
- 游戏与虚拟现实:生成游戏内的动态背景、剧情动画或用于创建虚拟数字人的表情和动作。
- 教育与培训:制作生动的教学视频,如让历史人物“开口”讲话、生成科学实验的动态过程等。
💎 总结
- 图片编辑
- 两个视频直接重叠
- 生成和非生成
💬 评论