多模态视频编辑通过文本、图像、音频等多种输入控制视频生成与编辑,显著提升创作灵活性。
2025 年视频编辑方法
| 论文 | 发布时间 | 核心贡献 |
|---|
| VideoPainter | 2025.07 | Video inpainting 数据集构建 pipeline |
| Phantom | 2025.04 | 多主体一致性生成,cross-pair 数据构建 |
| Multi-subject Open-set | 2025.03 | Video Alchemist 多主体个性化 |
| VACE | 2025.03 | All-in-One 视频创建与编辑框架 |
| Videograin | 2025.02 | 空间-时间注意力调制多粒度编辑 |
VACE 参考类型
- 关键帧(特定位置与参考图一致)
- 参考图(主体一致性)
- Mask、灰度图、深度图、光流图
- 边缘图/手绘线稿、布局图
- 骨骼关键点/面部关键点
市场产品
| 产品 | 特点 |
|---|
| Gemini 2.5 Flash | 多主体一致性、手绘参考、分割、3D 建模 |
| Runway Aleph | 改变镜头视角、打光、天气、主体颜色 |
| 可灵 AI | 多模态视觉语言交互 |
| 海螺 AI | 人物单主体一致性 |
核心技术
- 多模态条件控制:解耦交叉注意力分别处理文本和图像
- 时间一致性:3D 表示或时序注意力机制
- 空间与运动控制:预训练 ControlNet 或音频驱动
Data Pipeline 工具
- HED(边缘检测)
- SAM2、RAFT
- ZeroDepth(深度估计)
- BiRefNet(前景分离)
- Florence-2(VLM)
Comments