张芷铭的个人博客

多模态视频编辑通过文本、图像、音频等多种输入控制视频生成与编辑,显著提升创作灵活性。

2025 年视频编辑方法

论文发布时间核心贡献
VideoPainter2025.07Video inpainting 数据集构建 pipeline
Phantom2025.04多主体一致性生成,cross-pair 数据构建
Multi-subject Open-set2025.03Video Alchemist 多主体个性化
VACE2025.03All-in-One 视频创建与编辑框架
Videograin2025.02空间-时间注意力调制多粒度编辑

VACE 参考类型

  • 关键帧(特定位置与参考图一致)
  • 参考图(主体一致性)
  • Mask、灰度图、深度图、光流图
  • 边缘图/手绘线稿、布局图
  • 骨骼关键点/面部关键点

市场产品

产品特点
Gemini 2.5 Flash多主体一致性、手绘参考、分割、3D 建模
Runway Aleph改变镜头视角、打光、天气、主体颜色
可灵 AI多模态视觉语言交互
海螺 AI人物单主体一致性

核心技术

  1. 多模态条件控制:解耦交叉注意力分别处理文本和图像
  2. 时间一致性:3D 表示或时序注意力机制
  3. 空间与运动控制:预训练 ControlNet 或音频驱动

Data Pipeline 工具

  • HED(边缘检测)
  • SAM2、RAFT
  • ZeroDepth(深度估计)
  • BiRefNet(前景分离)
  • Florence-2(VLM)

Comments