MAE 通过高比例掩码(75%)和不对称编解码结构,实现高效的视觉自监督学习。
核心设计
| 设计 | 说明 |
|---|---|
| 不对称架构 | 编码器仅处理可见 patches,解码器重构缺失像素 |
| 高掩码比例 | 75% 掩码率迫使模型学习全局语义 |
| 可扩展性 | 架构简单,易于扩展到大模型 |
性能表现
- ImageNet-1K 准确率:87.8%
- 强迁移学习能力
MAE 通过高比例掩码(75%)和不对称编解码结构,实现高效的视觉自监督学习。
| 设计 | 说明 |
|---|---|
| 不对称架构 | 编码器仅处理可见 patches,解码器重构缺失像素 |
| 高掩码比例 | 75% 掩码率迫使模型学习全局语义 |
| 可扩展性 | 架构简单,易于扩展到大模型 |
Comments