张芷铭的个人博客

📅 0001-01-01

机器学习让计算机通过数据自动学习规律解决问题，核心三要素：数据、模型、优化。

概念辨析

概念	定义
机器学习	通过数据学习改进性能的统称
统计学习	以统计理论为基础的机器学习子集
深度学习	利用深层神经网络自动学习多层级特征

$$机器学习 \supseteq 统计学习 \supset 深度学习$$

数学基础

领域	核心内容	应用场景
线性代数	矩阵运算、SVD、张量表示	模型参数优化
概率统计	贝叶斯定理、概率分布、统计推断	不确定性量化
优化理论	梯度下降、凸优化、正则化	损失函数最小化
信息论	熵、交叉熵、KL散度	模型评估

机器学习三要素

模型（假设空间）

分类	说明
监督学习	数据有标注
无监督学习	数据无标注，学习内在结构
强化学习	与环境交互学习最优策略
半监督学习	少量标注 + 大量未标注

策略（选择准则）

经验风险最小化：极大似然估计（MLE）
结构风险最小化：最大后验概率估计（MAP）

正则化是结构风险最小化的实现

算法（学习方法）

模型参数优化的具体算法，如梯度下降。

核心算法

监督学习

任务	算法
分类	逻辑回归、决策树、随机森林、SVM
回归	线性回归、Lasso、Ridge

无监督学习

任务	算法
聚类	K-Means、DBSCAN、层次聚类
降维	PCA、t-SNE
异常检测	孤立森林、GMM

深度学习

架构	应用
CNN	图像识别
RNN/LSTM	序列建模
Transformer	NLP、多模态

[[Diffusion模型 MOC]]

工程实践

数据流程

数据预处理：缺失值处理、特征编码、标准化
特征工程：特征选择、特征提取、数据增强

开发工具

框架	适用场景
PyTorch	研究
TensorFlow	工业部署
Scikit-Learn	传统算法

评估指标

任务	指标
分类	准确率、召回率、F1、AUC-ROC
回归	MSE、MAE

学习路径

入门：数学基础 + Python 编程
进阶：经典算法实践 + 深度学习框架
高阶：NLP/CV/强化学习专项

前沿方向

大模型技术（GPT-4、多模态）
生成式 AI（扩散模型）
联邦学习（隐私保护）
交叉应用（AlphaFold、自动驾驶）

Comments