CoTracker3 - 张芷铭的个人博客

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

1. 研究背景

点追踪（Point Tracking）在计算机视觉中用于视频分析、3D 重建和视频编辑等任务。然而，大多数点追踪模型依赖合成数据进行训练，因人工标注真实视频的难度较大。这导致模型在真实视频上的泛化能力受限。

CoTracker3 旨在解决这个问题，通过一种新的半监督训练方法，使模型能够利用无标注的真实视频进行训练，并实现比现有方法更高效、更简单的点追踪。

2. 主要贡献

新的训练范式：

• 采用 伪标签（Pseudo-Labeling） 方式标注真实视频，避免大规模人工标注的成本。

• 通过 多个现有追踪器作为教师模型 生成伪标签，然后用它们训练新的学生模型，学生模型最终超过所有教师模型的性能。

• 使用 更少的数据（1000 倍减少），但性能仍超越现有 SOTA（State-of-the-Art）方法。

更简单的架构：

• 取消或简化了许多现有点追踪方法中的复杂组件，例如 BootsTAPIR 的全局匹配阶段。

• 采用 4D 相关性计算（从 LocoTrack 借鉴），并使用简单的 MLP 来计算相关性，而非复杂的特定设计。

高效且适应性强：

• 比 LocoTrack 快 27%，在单 GPU 上能同时追踪 70,000 个点。

• 支持 在线（实时）和离线（全局窗口）两种模式，在线模式适用于流式处理，离线模式能更好地处理遮挡和长期追踪。

3. 方法

数据构造

• 从 互联网收集 100,000 段 30 秒视频，多样化场景，主要包含人类和动物运动。

• 采用 SIFT 关键点检测 选择合适的追踪点，保证数据质量。

伪标签生成

• 采用 多个教师模型（包括 CoTracker、TAPIR、CoTracker3 在线和离线版本）生成伪标签。

• 随机选择教师模型 进行监督，避免过拟合。

模型架构 ![[CoTracker3模型结构.png]]

• 特征提取：使用 CNN 计算视频帧的 d 维特征图，并进行 多尺度处理。

• 4D 相关性计算：计算查询点在不同时间帧间的相关性，用于估计轨迹更新。

• Transformer 更新轨迹：

• 采用 交叉轨迹注意力（Cross-Track Attention），提高遮挡情况下的点追踪能力。

• 使用 滑动窗口更新轨迹（在线模式） 或 全局窗口更新轨迹（离线模式）。

训练策略

• 先使用 合成数据（Kubric）预训练，再用 真实数据 + 伪标签 进行微调。

• 冻结置信度和可见性头，防止模型在训练过程中遗忘这些信息。

4. 主要实验结果

超越现有 SOTA

• 在 TAP-Vid、DAVIS、RGB-Stacking 等数据集上超越所有现有方法，即使使用 1000 倍更少的数据。

• 在 RoboTAP 数据集上仅略逊于 BootsTAPIR，但后者使用了 1000 倍数据。

强大的遮挡追踪能力

• Dynamic Replica 数据集测试：

• 在遮挡场景下，CoTracker3 在线版本比 LocoTrack 提高 5.1%。

• 离线版本表现更优，能利用完整视频信息 重建被遮挡的轨迹。

数据扩展分析

• 训练数据从 100 到 100,000 逐步增加时，性能在 30,000 左右趋于饱和，说明训练数据并非无限制提升性能。

消融实验

• 交叉轨迹注意力（Cross-Track Attention） 提升遮挡点追踪能力（+5.1%）。

• 自训练（Self-Training） 进一步提升性能（+1.2%）。

• 冻结置信度和可见性头 提高平均追踪精度（+0.8%）。

5. 结论

CoTracker3 通过 简单高效的伪标签训练 解决了点追踪模型对 真实数据的依赖问题，并且在 更少数据下超越现有 SOTA。它可以用于 3D 追踪、视频生成、动态 3D 重建 等任务。

总结

CoTracker3 采用 伪标签方法 训练点追踪模型，避免了大规模人工标注的需求。它通过 多个教师模型生成伪标签，并用这些标签训练新的学生模型，最终实现比所有教师模型更好的追踪能力。该方法不仅 训练数据需求减少 1000 倍，还能 比 SOTA 方法更准确、更快、更能适应遮挡场景，对 视频分析、3D 追踪、视觉特效等领域有重要价值。

💬 评论