张芷铭的个人博客

MAE 通过高比例掩码(75%)和不对称编解码结构,实现高效的视觉自监督学习。

核心设计

设计说明
不对称架构编码器仅处理可见 patches,解码器重构缺失像素
高掩码比例75% 掩码率迫使模型学习全局语义
可扩展性架构简单,易于扩展到大模型

性能表现

  • ImageNet-1K 准确率:87.8%
  • 强迁移学习能力

参考链接

Comments