似然函数和概率分布函数是统计推断的核心概念。概率分布描述随机变量的分布行为,似然函数则基于观测数据推断模型参数。
概率分布函数 (PDF)
概率分布函数描述随机变量在特定取值下的概率。
离散型随机变量
概率质量函数(PMF)定义:
$$P(X = x_i) = p(x_i), \quad i = 1, 2, \dots$$
满足:$p(x_i) \geq 0$ 且 $\sum_i p(x_i) = 1$。
连续型随机变量
概率密度函数(PDF)$f_X(x)$ 定义:
$$P(a \leq X \leq b) = \int_a^b f_X(x) dx$$
满足:$f_X(x) \geq 0$ 且 $\int_{-\infty}^{\infty} f_X(x) dx = 1$。
示例: 标准正态分布的概率密度函数:
$$f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$$
似然函数 (Likelihood Function)
似然函数基于观测数据估计参数,是参数估计的核心工具。
定义
给定数据样本 ${x_1, x_2, \dots, x_n}$ 和概率密度函数 $f(x; \theta)$,似然函数定义为:
$$L(\theta) = P(x_1, x_2, \dots, x_n | \theta) = \prod_{i=1}^{n} f(x_i; \theta)$$
最大似然估计 (MLE)
通过最大化似然函数估计参数:
$$\hat{\theta}{MLE} = \arg\max{\theta} L(\theta)$$
实际应用中取对数似然:
$$\log L(\theta) = \sum_{i=1}^{n} \log f(x_i; \theta)$$
示例: 正态分布 $N(\mu, \sigma^2)$ 的似然函数:
$$L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}}$$
区别与联系
| 概念 | 概率分布函数 (PDF) | 似然函数 (LF) |
|---|---|---|
| 输入 | 参数 $\theta$ 已知 | 数据 ${x_i}$ 已知 |
| 输出 | 数据的概率分布 | 参数的"可能性" |
| 方向 | 参数 → 数据 | 数据 → 参数 |
| 用途 | 描述随机现象 | 估计未知参数 |
形象比喻: 掷硬币 10 次,7 次正面。
- 概率分布函数:给定正面概率 $\theta$,计算 7 次正面的概率
- 似然函数:给定 7 次正面,推断最可能的 $\theta$ 值
总结
- 概率分布函数:描述随机变量的分布,是正向建模过程
- 似然函数:基于观测数据推断参数,是逆向推理过程
两者在统计推断中相辅相成:概率分布函数描述现象,似然函数估计参数。
张芷铭的个人博客
Comments