SSM(Structured State Space Models)通过状态空间方程将序列建模为线性时不变系统,计算复杂度O(N),在长序列处理上优于Transformer的O(N²)。
核心优势
| 优势 | 说明 |
|---|---|
| 长序列建模 | 复杂度O(N),支持数万长度序列 |
| 内存效率 | 内存线性增长,无需存储注意力矩阵 |
| 硬件友好 | 通过卷积核形式并行计算 |
数学形式
$$h_t = Ah_{t-1} + Bx_t, \quad y_t = Ch_t + Dx_t$$
其中$A, B, C, D$为可学习参数。
SSM vs Transformer
| 特性 | SSM(Mamba) | Transformer |
|---|---|---|
| 计算复杂度 | O(N) | O(N²) |
| 长序列处理 | 支持数万长度 | 通常限制数千 |
| 内存占用 | 线性增长 | 平方增长 |
| 并行化 | 高度并行 | 受限 |
适用场景
| 场景 | 说明 |
|---|---|
| 长文本建模 | 书籍、法律文档、论文 |
| 语音处理 | 小时级音频流 |
| 生物信息 | DNA序列分析、蛋白质预测 |
| 视频理解 | 小时级视频分析 |
代表模型
- Mamba:基于SSM的高效架构
- Hyena:SSM与CNN混合模型
张芷铭的个人博客
Comments