张芷铭的个人博客

SSM(Structured State Space Models)通过状态空间方程将序列建模为线性时不变系统,计算复杂度O(N),在长序列处理上优于Transformer的O(N²)。

核心优势

优势说明
长序列建模复杂度O(N),支持数万长度序列
内存效率内存线性增长,无需存储注意力矩阵
硬件友好通过卷积核形式并行计算

数学形式

$$h_t = Ah_{t-1} + Bx_t, \quad y_t = Ch_t + Dx_t$$

其中$A, B, C, D$为可学习参数。

SSM vs Transformer

特性SSM(Mamba)Transformer
计算复杂度O(N)O(N²)
长序列处理支持数万长度通常限制数千
内存占用线性增长平方增长
并行化高度并行受限

适用场景

场景说明
长文本建模书籍、法律文档、论文
语音处理小时级音频流
生物信息DNA序列分析、蛋白质预测
视频理解小时级视频分析

代表模型

  • Mamba:基于SSM的高效架构
  • Hyena:SSM与CNN混合模型

Comments