CoTracker3 通过伪标签训练实现高效点追踪,用 1000 倍更少数据超越 SOTA。
核心创新
| 创新 | 说明 |
|---|---|
| 伪标签训练 | 多教师模型生成标签 |
| 简化架构 | 取消全局匹配阶段 |
| 高效推理 | 比 LocoTrack 快 27% |
方法
数据构造:
- 100,000 段 30 秒互联网视频
- SIFT 关键点选择追踪点
伪标签生成:
- 多教师模型(CoTracker、TAPIR)
- 随机选择避免过拟合
模型架构:
- CNN 特征提取 + 多尺度处理
- 4D 相关性计算
- Transformer 更新轨迹(交叉轨迹注意力)
训练策略
- 合成数据(Kubric)预训练
- 真实数据 + 伪标签微调
- 冻结置信度/可见性头
性能
- 在 TAP-Vid、DAVIS 上超越 SOTA
- 遮挡场景追踪能力 +5.1%
- 单 GPU 追踪 70,000 点
模式
| 模式 | 适用场景 |
|---|---|
| 在线 | 实时流式处理 |
| 离线 | 遮挡/长期追踪 |
张芷铭的个人博客
Comments