- 张芷铭的个人博客

2025 年 LLM 架构通过 MoE、注意力机制优化、小模型设计实现"用巧劲让参数用在刀刃上"。

DeepSeek-V3/R1：压缩缓存 + 选专家

设计	说明
多头潜在注意力（MLA）	压缩 KV 缓存再存储，内存省、性能略好
混合专家（MoE）	256 个专家，每次激活 9 个（6710 亿参数，实际动 370 亿）

设计	说明
滑动窗口注意力	当前词只看最近 1024 个词
Gemma 3n	参数拆分常用/不常用，手机端优化

设计	说明
GQA	使用 FlashAttention 优化，延迟更低
缩小 KV 缓存	减少层数，轻装上阵

设计	说明
MoE	少大专家，每次激活 2 个（4000 亿参数，实际动 170 亿）
GQA	不学 MLA，架构稳妥

版本	设计
dense 版	深而窄（层数多、头少），内存 1.5GB，本地可训
MoE 版	2350 亿参数，激活 220 亿，取消通用专家

设计	说明
NoPE	每 4 层有 1 层不加位置编码，靠因果掩码隐性判断位置
长文本稳定	处理 1 万字不易崩

设计	说明
架构	基本 DeepSeek-V3，专家数量更多，注意力头数更少
优化器	Muon 替代 AdamW，训练效率更高