张芷铭的个人博客

Jensen不等式:深度学习与优化理论的数学基石

Jensen不等式是凸分析中的核心工具之一,由丹麦数学家Johan Jensen于1906年正式提出。这个看似简单的数学不等式,却在概率论、信息论、机器学习和优化领域展现出惊人的普适性。在深度学习的浪潮中,它不仅是理解算法收敛性的理论基础,更是生成模型、变分推断和鲁棒优化等前沿方向的关键推导工具

数学定义与形式化表达

凸函数基础

在理解Jensen不等式前,需明确凸函数的定义:若函数$f: I \rightarrow \mathbb{R}$满足对定义域$I$内任意两点$x_1, x_2$和$\lambda \in [0,1]$,有: $$ f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1) + (1-\lambda)f(x_2) $$ 则称$f$为凸函数(convex function)。若不等号方向相反,则称$f$为凹函数(concave function)。

Jensen不等式的基本形式

设$f$为凸函数,$X$为随机变量且取值在$I$内,期望$E[X]$存在�

Comments