张芷铭的个人博客

2025 年 LLM 架构通过 MoE、注意力机制优化、小模型设计实现"用巧劲让参数用在刀刃上"。

原文链接

DeepSeek-V3/R1:压缩缓存 + 选专家

设计说明
多头潜在注意力(MLA)压缩 KV 缓存再存储,内存省、性能略好
混合专家(MoE)256 个专家,每次激活 9 个(6710 亿参数,实际动 370 亿)

OLMo 2:透明稳定

设计说明
Post-Norm归一化层放在注意力/FFN 之后
QK-Norm注意力计算前单独归一化 Q 和 K
MHA不跟风 GQA/MLA,主打稳定易懂

Gemma 3:滑动窗口省缓存

设计说明
滑动窗口注意力当前词只看最近 1024 个词
Gemma 3n参数拆分常用/不常用,手机端优化

Mistral Small 3.1:精简设计

设计说明
GQA使用 FlashAttention 优化,延迟更低
缩小 KV 缓存减少层数,轻装上阵

Llama 4:保守 MoE

设计说明
MoE少大专家,每次激活 2 个(4000 亿参数,实际动 170 亿)
GQA不学 MLA,架构稳妥

Qwen3:小而强 + 大而省

版本设计
dense 版深而窄(层数多、头少),内存 1.5GB,本地可训
MoE 版2350 亿参数,激活 220 亿,取消通用专家

SmolLM3:性价比之王

设计说明
NoPE每 4 层有 1 层不加位置编码,靠因果掩码隐性判断位置
长文本稳定处理 1 万字不易崩

Kimi K2:开源天花板

设计说明
架构基本 DeepSeek-V3,专家数量更多,注意力头数更少
优化器Muon 替代 AdamW,训练效率更高

2025 年 LLM 架构核心趋势

趋势说明
MoE 成主流选专家干活,平衡大参数容量与低推理成本
注意力玩花样压缩缓存(MLA)、限制视野(滑动窗口),核心是省内存
小模型有春天深而窄、反常识设计,入门和本地部署首选
训练细节更重要归一化位置、优化器选择,影响稳定性和性能

Comments