- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

MAE 通过高比例掩码（75%）和不对称编解码结构，实现高效的视觉自监督学习。

核心设计

设计	说明
不对称架构	编码器仅处理可见 patches，解码器重构缺失像素
高掩码比例	75% 掩码率迫使模型学习全局语义
可扩展性	架构简单，易于扩展到大模型

性能表现

ImageNet-1K 准确率：87.8%
强迁移学习能力

参考链接

https://zhuanlan.zhihu.com/p/446761025

Comments