masked auto-regression (MAR) - 张芷铭的个人博客

深入解析 Masked Auto-Regression (MAR)：从时间序列到表格填补的革命性方法

Masked Auto-Regression (MAR) 是近年来在时间序列分析与深度学习交叉领域兴起的关键技术。它通过掩码机制控制信息流，实现对复杂依赖关系的建模。本文将从定义、原理、应用场景到最新进展，全方位解析 MAR 的核心思想。

MAR 这一缩写实际涵盖两类重要模型，需明确区分：

传统时间序列分析：多元自回归模型 (Multivariate Auto-Regressive Model)
- 基于 Granger 因果性，通过历史状态预测当前状态，公式为：
  $$X_t = \sum_{i=1}^q A_i X_{t-i} + \epsilon_t$$
  其中 $q$ 为模型阶数（滞后步长），$A_i$ 为系数矩阵。
- 用于脑科学中有效连接网络（Effective Connectivity）的推断，如 fMRI 时间序列分析。

二、原理与技术演进

（1）传统 MAR 模型的优化挑战

模型阶数 $q$ 的选择：传统默认 $q=1$（因 fMRI 低频波动），但实际需根据数据分布优化。研究表明，基于概率分布估计最优阶数可提升脑疾病（如 MCI）识别准确率。
稀疏性约束：引入正交最小二乘法（OLS）剔除虚假连接，构建稀疏有效连接网络。

（2）深度学习 MAR 的核心机制

以表格数据填补为例（Proportionally Masked AutoEncoder, PMAE）：

比例掩码策略：
- 传统 MAE 采用均匀随机掩码，破坏真实缺失分布（如医疗数据中某些列缺失率更高）。
- PMAE 统计各特征缺失比例，生成对齐真实缺失分布的掩码。
轻量架构替代 Transformer：
- 使用 MLP-Mixer 替代 Transformer，其全连接层更擅长捕获局部特征交互（如患者年龄与特定检查指标的关联）。

（3）缺失机制的理论基础

MAR vs MNAR：
- MAR（随机缺失）：缺失概率仅依赖观测变量（如某检测值缺失与已记录的年龄相关）。
- MNAR（非随机缺失）：缺失概率依赖未观测变量（如重症患者拒绝检测导致数据缺失）。
- 通过缺失图（m-graph） 可视化因果机制。
可恢复性（Recoverability）：
- MAR 数据可通过多重插补（MICE）无偏恢复，MNAR 需更复杂的模式混合模型。

三、应用场景与实战案例

（1）医疗诊断：MCI 早期识别

方法：基于 fMRI 时间序列构建 MAR 模型，推断脑区因果网络。
结果：使用最优阶数 $q$ 和 OLS 稀疏化的模型，MCI 识别准确率显著高于传统功能连接网络。

（2）表格数据填补

PMAE 流程：

1
2
3
4
5
6
# 伪代码：比例掩码生成  
def generate_mask(data, missing_ratio_per_column):  
    mask = torch.ones(data.shape)  
    for col_idx, ratio in enumerate(missing_ratio_per_column):  
        mask[:, col_idx] = torch.bernoulli(1 - ratio)  # 按列缺失比例采样  
    return mask  

效果：在 “General” 缺失模式下（多列同时缺失），PMAE 比传统 MAE 性能提升 34.1%。

（3）生态网络推断

MAR vs Lotka-Volterra 模型：
- MAR 擅长近线性动态系统（如微生物群落随时间的线性变化）。
- 非线性系统（如物种竞争）更适合 Lotka-Volterra。

四、最新进展：2024 技术突破

PMAE 的异构数据处理
- 提出统一评估指标：分类变量用准确率，连续变量用 $R^2$，避免 RMSE 对类别编码的偏差。
动态因果图优化
- 结合 MAR 与图神经网络（GNN），从 fMRI 时序数据中学习时变脑连接网络。

五、代码实践：PMAE 简化实现

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import torch  
import torch.nn as nn  

class PMAE(nn.Module):  
    def __init__(self, input_dim, hidden_dims):  
        super().__init__()  
        self.encoder = nn.Sequential(  
            nn.Linear(input_dim, hidden_dims[0]),  
            nn.ReLU(),  
            nn.Linear(hidden_dims[0], hidden_dims[1])  
        )  
        self.decoder = nn.Sequential(  
            nn.Linear(hidden_dims[1], hidden_dims[0]),  
            nn.ReLU(),  
            nn.Linear(hidden_dims[0], input_dim)  
        )  

    def forward(self, x, mask):  
        masked_x = x * mask          # 应用比例掩码  
        latent = self.encoder(masked_x)  
        recon = self.decoder(latent)  
        return recon  

# 损失函数：数值特征用 MSE，分类特征用交叉熵  
def hybrid_loss(recon, target, cat_indices):  
    loss = 0  
    for i in range(recon.shape[1]):  
        if i in cat_indices:  
            loss += nn.CrossEntropyLoss()(recon[:, i], target[:, i])  
        else:  
            loss += nn.MSELoss()(recon[:, i], target[:, i])  
    return loss  

六、学习资源推荐

理论基础
- 《Statistical Analysis with Missing Data》（Rubin, 2002）
- 论文《Identification of MCI Using Sparse MAR》（2024）
深度生成模型
- PMAE 开源代码：https://github.com/normal-kim/PMAE
- 教程《Masked Autoencoders Are Scalable Vision Learners》（He et al, 2022）

MAR 的本质是在信息受限条件下最大化表征能力。无论是脑科学中的动态因果推断，还是表格数据填补，其生命力源于对“不完整现实”的建模智慧。