张芷铭的个人博客

CoTracker3 通过伪标签训练实现高效点追踪,用 1000 倍更少数据超越 SOTA。

核心创新

创新说明
伪标签训练多教师模型生成标签
简化架构取消全局匹配阶段
高效推理比 LocoTrack 快 27%

方法

数据构造

  • 100,000 段 30 秒互联网视频
  • SIFT 关键点选择追踪点

伪标签生成

  • 多教师模型(CoTracker、TAPIR)
  • 随机选择避免过拟合

模型架构

  • CNN 特征提取 + 多尺度处理
  • 4D 相关性计算
  • Transformer 更新轨迹(交叉轨迹注意力)

训练策略

  1. 合成数据(Kubric)预训练
  2. 真实数据 + 伪标签微调
  3. 冻结置信度/可见性头

性能

  • 在 TAP-Vid、DAVIS 上超越 SOTA
  • 遮挡场景追踪能力 +5.1%
  • 单 GPU 追踪 70,000 点

模式

模式适用场景
在线实时流式处理
离线遮挡/长期追踪

Comments