2025 年 LLM 架构通过 MoE、注意力机制优化、小模型设计实现"用巧劲让参数用在刀刃上"。
原文链接
DeepSeek-V3/R1:压缩缓存 + 选专家
| 设计 | 说明 |
|---|
| 多头潜在注意力(MLA) | 压缩 KV 缓存再存储,内存省、性能略好 |
| 混合专家(MoE) | 256 个专家,每次激活 9 个(6710 亿参数,实际动 370 亿) |
OLMo 2:透明稳定
| 设计 | 说明 |
|---|
| Post-Norm | 归一化层放在注意力/FFN 之后 |
| QK-Norm | 注意力计算前单独归一化 Q 和 K |
| MHA | 不跟风 GQA/MLA,主打稳定易懂 |
Gemma 3:滑动窗口省缓存
| 设计 | 说明 |
|---|
| 滑动窗口注意力 | 当前词只看最近 1024 个词 |
| Gemma 3n | 参数拆分常用/不常用,手机端优化 |
Mistral Small 3.1:精简设计
| 设计 | 说明 |
|---|
| GQA | 使用 FlashAttention 优化,延迟更低 |
| 缩小 KV 缓存 | 减少层数,轻装上阵 |
Llama 4:保守 MoE
| 设计 | 说明 |
|---|
| MoE | 少大专家,每次激活 2 个(4000 亿参数,实际动 170 亿) |
| GQA | 不学 MLA,架构稳妥 |
Qwen3:小而强 + 大而省
| 版本 | 设计 |
|---|
| dense 版 | 深而窄(层数多、头少),内存 1.5GB,本地可训 |
| MoE 版 | 2350 亿参数,激活 220 亿,取消通用专家 |
SmolLM3:性价比之王
| 设计 | 说明 |
|---|
| NoPE | 每 4 层有 1 层不加位置编码,靠因果掩码隐性判断位置 |
| 长文本稳定 | 处理 1 万字不易崩 |
Kimi K2:开源天花板
| 设计 | 说明 |
|---|
| 架构 | 基本 DeepSeek-V3,专家数量更多,注意力头数更少 |
| 优化器 | Muon 替代 AdamW,训练效率更高 |
2025 年 LLM 架构核心趋势
| 趋势 | 说明 |
|---|
| MoE 成主流 | 选专家干活,平衡大参数容量与低推理成本 |
| 注意力玩花样 | 压缩缓存(MLA)、限制视野(滑动窗口),核心是省内存 |
| 小模型有春天 | 深而窄、反常识设计,入门和本地部署首选 |
| 训练细节更重要 | 归一化位置、优化器选择,影响稳定性和性能 |
Comments