自回归模型(AR)利用历史数据预测未来值,是时间序列分析和 NLP 自回归生成的基础。
基本定义
$p$ 阶自回归模型 $AR(p)$:
$$y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \varepsilon_t$$
平稳性条件
特征方程根落在单位圆外:
$$1 - \phi_1 z - \cdots - \phi_p z^p = 0$$
ACF/PACF 特征:
- ACF:拖尾(指数衰减)
- PACF:$k > p$ 处截尾
参数估计
| 方法 | 说明 |
|---|---|
| OLS | $\hat{\phi} = (X^T X)^{-1} X^T y$ |
| Yule-Walker | 自协方差方程组求解 |
阶数选择
- AIC:$AIC = 2k - 2\ln(L)$
- BIC:$BIC = \ln(n)k - 2\ln(L)$
- 选择最小化准则的阶数
建模流程
| |
扩展模型
| 模型 | 说明 |
|---|---|
| ARMA | AR + 移动平均 |
| ARIMA | 差分 + ARMA |
| NNAR | 神经网络自回归 |
NLP 自回归生成
$$P(w_{1:T}) = \prod_{t=1}^T P(w_t | w_{1:t-1})$$
| 特性 | AR(GPT) | NAR |
|---|---|---|
| 生成 | 顺序 | 并行 |
| 质量 | 高 | 较低 |
| 速度 | $O(n)$ | $O(1)$ |
应用场景
- 短期预测:股票、销售量
- 信号处理:语音增强
- NLP:文本生成
局限性
- 需平稳序列
- 线性假设限制
- 长期预测误差累积
张芷铭的个人博客
Comments