- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

多模态视频编辑通过文本、图像、音频等多种输入控制视频生成与编辑，显著提升创作灵活性。

2025 年视频编辑方法

论文	发布时间	核心贡献
VideoPainter	2025.07	Video inpainting 数据集构建 pipeline
Phantom	2025.04	多主体一致性生成，cross-pair 数据构建
Multi-subject Open-set	2025.03	Video Alchemist 多主体个性化
VACE	2025.03	All-in-One 视频创建与编辑框架
Videograin	2025.02	空间-时间注意力调制多粒度编辑

VACE 参考类型

关键帧（特定位置与参考图一致）
参考图（主体一致性）
Mask、灰度图、深度图、光流图
边缘图/手绘线稿、布局图
骨骼关键点/面部关键点

市场产品

产品	特点
Gemini 2.5 Flash	多主体一致性、手绘参考、分割、3D 建模
Runway Aleph	改变镜头视角、打光、天气、主体颜色
可灵 AI	多模态视觉语言交互
海螺 AI	人物单主体一致性

核心技术

多模态条件控制：解耦交叉注意力分别处理文本和图像
时间一致性：3D 表示或时序注意力机制
空间与运动控制：预训练 ControlNet 或音频驱动

Data Pipeline 工具

HED（边缘检测）
SAM2、RAFT
ZeroDepth（深度估计）
BiRefNet（前景分离）
Florence-2（VLM）

Comments