张芷铭的个人博客

CoTracker3

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

1. 研究背景

点追踪(Point Tracking)在计算机视觉中用于视频分析、3D 重建和视频编辑等任务。然而,大多数点追踪模型依赖合成数据进行训练,因人工标注真实视频的难度较大。这导致模型在真实视频上的泛化能力受限。

CoTracker3 旨在解决这个问题,通过一种新的半监督训练方法,使模型能够利用无标注的真实视频进行训练,并实现比现有方法更高效、更简单的点追踪。


2. 主要贡献

  1. 新的训练范式

• 采用 伪标签(Pseudo-Labeling) 方式标注真实视频,避免大规模人工标注的成本。

• 通过 多个现有追踪器作为教师模型 生成伪标签,然后用它们训练新的学生模型,学生模型最终超过所有教师模型的性能。

• 使用 更少的数据(1000 倍减少),但性能仍超越现有 SOTA(State-of-the-Art)方法。

  1. 更简单的架构

• 取消或简化了许多现有点追踪方法中的复杂组件,例如 BootsTAPIR 的全局匹配阶段

采用 4D 相关性计算(从 LocoTrack 借鉴),并使用简单的 MLP 来计算相关性,而非复杂的特定设计。

  1. 高效且适应性强

比 LocoTrack 快 27%,在单 GPU 上能同时追踪 70,000 个点

• 支持 在线(实时)和离线(全局窗口)两种模式,在线模式适用于流式处理,离线模式能更好地处理遮挡和长期追踪。


3. 方法

  1. 数据构造

• 从 互联网收集 100,000 段 30 秒视频,多样化场景,主要包含人类和动物运动。

• 采用 SIFT 关键点检测 选择合适的追踪点,保证数据质量。

  1. 伪标签生成

• 采用 多个教师模型(包括 CoTracker、TAPIR、CoTracker3 在线和离线版本)生成伪标签。

随机选择教师模型 进行监督,避免过拟合。

  1. 模型架构 ![[CoTracker3模型结构.png]]

特征提取:使用 CNN 计算视频帧的 d 维特征图,并进行 多尺度处理

4D 相关性计算:计算查询点在不同时间帧间的相关性,用于估计轨迹更新。

Transformer 更新轨迹

• 采用 交叉轨迹注意力(Cross-Track Attention),提高遮挡情况下的点追踪能力。

• 使用 滑动窗口更新轨迹(在线模式)全局窗口更新轨迹(离线模式)

  1. 训练策略

• 先使用 合成数据(Kubric)预训练,再用 真实数据 + 伪标签 进行微调。

冻结置信度和可见性头,防止模型在训练过程中遗忘这些信息。


4. 主要实验结果

  1. 超越现有 SOTA

在 TAP-Vid、DAVIS、RGB-Stacking 等数据集上超越所有现有方法,即使使用 1000 倍更少的数据

• 在 RoboTAP 数据集上仅略逊于 BootsTAPIR,但后者使用了 1000 倍数据

  1. 强大的遮挡追踪能力

Dynamic Replica 数据集测试

• 在遮挡场景下,CoTracker3 在线版本比 LocoTrack 提高 5.1%

• 离线版本表现更优,能利用完整视频信息 重建被遮挡的轨迹

  1. 数据扩展分析

• 训练数据从 100 到 100,000 逐步增加时,性能在 30,000 左右趋于饱和,说明训练数据并非无限制提升性能。

  1. 消融实验

交叉轨迹注意力(Cross-Track Attention) 提升遮挡点追踪能力(+5.1%)。

自训练(Self-Training) 进一步提升性能(+1.2%)。

冻结置信度和可见性头 提高平均追踪精度(+0.8%)。


5. 结论

CoTracker3 通过 简单高效的伪标签训练 解决了点追踪模型对 真实数据的依赖问题,并且在 更少数据下超越现有 SOTA。它可以用于 3D 追踪、视频生成、动态 3D 重建 等任务。


总结

CoTracker3 采用 伪标签方法 训练点追踪模型,避免了大规模人工标注的需求。它通过 多个教师模型生成伪标签,并用这些标签训练新的学生模型,最终实现比所有教师模型更好的追踪能力。该方法不仅 训练数据需求减少 1000 倍,还能 比 SOTA 方法更准确、更快、更能适应遮挡场景,对 视频分析、3D 追踪、视觉特效等领域有重要价值

💬 评论