02 Artificial Intelligences
共 276 篇文章
变分推断通过近似后验分布,将复杂的概率推断转化为优化问题,是贝叶斯深度学习和生成模型的核心技术。
核心问题
贝叶斯推断中,后验分布 $p(Z|X)$ 的计算涉及难以处理的边际似然:
$$p(Z|X) = …
在人工智能的浪潮中,我们习惯于模型给出一个确定的答案:这张图是“猫”,这段文本的情感是“积极”。然而,在现实世界中,“不确定性”无处不在。模型能否不仅给出预测,还能告诉我们它对这个预测有多大的把握?这正是贝叶斯深度学习(Bayesian …
本文中SSL特指自监督学习(Self-Supervised Learning),VQ特指矢量量化(Vector Quantization),避免与网络安全领域的SSL混淆。
引言
自监督学习(SSL)已成为解决标注数据稀缺、学习通用可迁 …
Adam(Adaptive Moment Estimation)融合动量机制与自适应学习率,是深度学习领域的默认优化器,工业界实际使用的是 AdamW。
为什么需要 Adam
传统优化器的核心缺陷: …
统一符号规范,厘清 Python 中
*/@/dot/matmul的行为差异,避免乘法运算的隐性 bug。
维度定义
| 概念 | 维度 | 符号 … |
|---|
反向传播利用链式求导法则,把误差逐层传递,高效计算每个参数的梯度。训练计算量约为推理的 3 倍。
核心问题
神经网络是多层嵌套复合函数,目标是找到最优参数使损失最小。
梯度下降:沿梯度反方向更新参数。
$$W_{new} = …
前向传播从输入计算输出,反向传播用链式法则求梯度,二者构成神经网络训练的核心循环。
核心概念
| 概念 | 说明 |
|---|---|
| 模型 … |
Accelerate 是 Hugging Face 的轻量级分布式训练工具,3 行代码实现单卡到多卡的切换。
核心优势
| 特性 | 说明 … |
|---|
Google DeepMind《How To Scale Your Model》系列第三篇精华,大模型分布式训练/推理的张量分片底层理论与方法论。
核心基础概念
为什么要做张量分片
| 驱动因素 … |
|---|
条件引导是扩散模型从「随机生成」跨越到「可控生成」的核心基石,通过引入条件信号将生成分布约束到条件分布,实现语义、结构、风格的全维度控制。
什么是扩散模型的条件引导
无条件扩散模型生成内容不可控。条件引导通过引入条件信号 $c$,将生成 …
强化学习是强实践学科,必须遵循「概念→代码→调试」闭环。
前置知识
| 类型 | 内容 |
|---|---|
| 必备 | 线性代数 … |
GRPO(Group Relative Policy Optimization)是DeepSeek提出的无价值网络强化学习算法,通过组内相对奖励估计优势,显存降低40%-50%,已成为LLM强化学习主流方案。
核心定义
GRPO是无价值 …
GPU 是通用并行处理器,TPU 是 AI 专用 ASIC——前者以通用性换取生态灵活性,后者以牺牲通用性换取 AI 场景极致效率。
核心相似点
| 维度 | 共性 … |
|---|
Roofline 模型通过操作强度将算法特征与硬件能力关联,精准定位性能瓶颈(内存带宽受限/算力受限)。
核心概念
操作强度
$$OI = \frac{\text{浮点操作数}(FLOPs)}{\text{片外内存访问量 …
Transformer 采用编码器-解码器结构,通过多头注意力捕捉全局依赖,靠位置编码注入位置信息,成为现代深度学习的核心架构。
整体架构
| 组件 | 结构 | 功 … |
|---|
深度学习网络层按功能分为基础层、CNN 层、归一化层、激活层、序列层、Transformer 层、正则化层、融合层、特殊层九大类。
基础核心层
全连接层(Linear/FC)
- 公式:$y = Wx + b$
- 应用:分类输出、维度变换 …
位置编码为 Transformer 自注意力机制注入位置信息,解决其置换不变性问题。
核心问题
自注意力机制的置换不变性使其无法区分序列顺序。位置编码通过添加位置向量解决: …
人工智能领域的核心导航文件,涵盖机器学习、深度学习、大语言模型、计算机视觉等方向。
目录结构
| |
K-Means 是经典无监督聚类算法,通过迭代优化最小化簇内平方和,使同簇样本相似度高、异簇相似度低。
算法流程
- 初始化:选择 k 个初始聚类中心(可用 K-Means++)
- 分配:每个样本分配到最近的聚类中心
- 更新:重新计算每个簇的 …
KL 散度(Kullback-Leibler Divergence)衡量两个概率分布差异,是信息论和机器学习的核心概念。
数学定义
离散分布
$$D_{KL}(P \parallel Q) = \sum_{x \in …
KL 散度衡量两个概率分布差异,是信息论和机器学习的核心概念。
数学定义
离散分布: $$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$$
连续分布: …
KNN 是基于实例的监督学习算法,通过找最相似的 K 个样本进行预测,核心思想是"物以类聚"。
工作流程
- 计算距离:新样本与所有训练样本的距离
- 找 K 个最近邻:选出距离最小的 K 个
- 投票/平均:分类用多数投票, …
PCA 通过线性变换将高维数据投影到低维空间,在保留主要特征的同时降低计算复杂度。
数学原理
最大投影方差
投影后样本方差:$\omega^T \Sigma \omega$,其中 $\Sigma = \frac{1}{m} X X^T$ …
RBF 核(高斯核)通过核技巧隐式映射到无限维空间,是处理非线性问题的万能核函数。
数学定义
$$K(\mathbf{x_i}, \mathbf{x_j}) = \exp\left(-\gamma |\mathbf{x_i} - …
XGBoost 是极致优化的梯度提升框架,通过并行处理、正则化和近似算法显著提升性能。
核心特性
- 并行计算优化
- 正则化防止过拟合
- 高效处理缺失值
- 树剪枝与分位数优化
目标函数
$$\mathcal{L}(\phi) = …
支持向量机(SVM)是经典的监督学习算法,在小样本、非线性及高维模式识别中表现出色,广泛应用于分类和回归任务。
概述
支持向量机(Support Vector Machine, SVM)由 Vapnik 等人于 1992 年正式提出。 …
机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计,贝叶斯派通过 MAP 求解参数后验分布。
频率派 vs 贝叶斯派
| 方法 | 参数观点 … |
|---|
变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。
问题设定
推断核心是求解参数后验分布:
$$p(\hat{x}|X)=\int_\theta …
MCMC 通过构建马尔可夫链使其收敛到目标分布,包括拒绝采样、重要性采样、Metropolis-Hastings 和 Gibbs 采样。
采样方法对比
| 方法 | 思路 … |
|---|
隐马尔可夫模型(HMM)是离散状态空间模型,参数为 $(\pi,A,B)$。解决评估、学习和译码三个问题。
动态模型分类
| 模型 | 状态变量特点 … |
|---|
线性动态系统(LDS)处理连续隐变量的时序建模,卡尔曼滤波是其特例,通过预测-更新递推实现实时推断。
模型定义
LDS 又称卡尔曼滤波,适用于连续隐变量的 HMM。状态转移和观测方程:
$$ \begin{align} z_t …
粒子滤波解决非线性、非高斯状态空间模型的滤波问题,通过序列重要性采样(SIS)和重采样近似求解后验分布。
背景
Kalman 滤波对线性高斯模型可解析求解,但非线性、非高斯情况需采样方法。
重要性采样 …
条件随机场(CRF)是判别式无向图模型,解决 MEMM 的标签偏置问题。通过全局归一化建模条件概率 $p(Y|X)$。
背景对比
| 模型 | 类型 | 建模对象 … |
|---|
高斯网络是连续变量的概率图模型,分为有向(高斯贝叶斯网络)和无向(高斯马尔可夫网络)两种形式。
高斯分布基础
节点服从 $\mathcal{N}(\mu_i, \Sigma_i)$,联合分布为多元高斯。
独立性条件: …
贝叶斯线性回归通过引入参数先验,求解参数的后验分布而非点估计。高斯先验对应岭回归,拉普拉斯先验对应 Lasso。
模型假设
$$f(x)=w^Tx$$ $$y=f(x)+\varepsilon, \quad …
高斯过程是无限维的高斯分布,定义在连续域上。高斯过程回归可从权空间(核贝叶斯线性回归)和函数空间两个视角理解。
定义
高斯过程 ${\xi_t}{t\in T}$ 满足:任意有限点集 $\xi …
受限玻尔兹曼机(RBM)是无向图模型,假设隐变量和观测变量内部无连接,只存在层间连接。概率密度函数为指数族分布,推断可解析求解。
模型定义
将观测变量和隐变量记为 $v$ 和 $h$,无向图的玻尔兹曼分布: …
线性回归通过最小二乘法求解,闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘,正则化对应不同的先验假设。
模型假设
数据集 …
谱聚类是基于无向带权图的聚类方法,通过最小化归一化割(Ncut)将图分割为多个子图。适用于非凸数据集。
聚类思路对比
| 方法 | 思路 | 代表算法 … |
|---|
深度学习包括深度神经网络和深度生成网络。神经网络通过复合运算解决非线性问题,发展经历了从感知机到深度学习的技术演进。
机器学习流派
| 流派 | 方法 | 代表算法 … |
|---|
配分函数是概率分布的归一化因子,在最大似然估计中难以直接计算,需通过 MCMC 等采样方法近似求解。
配分函数定义
对于概率分布:
$$p(x|\theta)=\frac{1}{Z(\theta)}\hat{p}(x|\theta), …
近似推断将推断问题转化为优化问题,通过最大化 ELBO(证据下界)近似求解后验分布。主要用于深度生成模型中的隐变量推断。
推断目的
- 根据观测推断隐变量
- 为参数学习提供帮助
推断的困难
- 无向图:节点耦合强,因子分解困难
- 有向图:条件 …
线性分类分为硬分类(直接输出类别)和软分类(输出概率)。硬分类包括感知机和线性判别分析;软分类包括判别式(Logistic 回归)和生成式(GDA、朴素贝叶斯)。
分类方法对比
| 类型 … |
|---|
降维解决维度灾难和过拟合问题,分为特征选择、线性降维(PCA)和非线性降维(流形学习)。
维度灾难
$n$ 维球体积与超立方体比值:
$$\lim_{n\to\infty}\frac{CR^n}{2^nR^n}=0$$
高维数据主要分布 …
SVM 通过最大化间隔实现分类,支持硬间隔、软间隔和核方法三种策略。
问题分类与策略
| 数据特点 | SVM 方法 |
|---|---|
| 线性 … |
指数族分布是一类分布的统一形式,包括高斯、伯努利、泊松、Beta、Dirichlet、Gamma 等分布。具有共轭先验性质,满足最大熵原理。
统一形式 …
概率图模型用图表示概率分布,分为有向图(贝叶斯网络)和无向图(马尔可夫网络),涉及表示、推断和学习三个理论部分。
概率规则
$$p(x_1)=\int p(x_1,x_2)dx_2$$ …
EM 算法解决具有隐变量的混合模型参数估计,通过迭代最大化期望对数似然,每步似然单调递增。
问题设定
$$\theta_{MLE}=\mathop{argmax}_\theta\log p(x|\theta)$$
迭代公式: …
高斯混合模型通过多个高斯分布的加权平均拟合多峰数据,引入离散隐变量 $z$ 表示样本所属的高斯分布,通过 EM 算法求解参数。
模型定义 …
机器学习核心公式速查表,涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。
数学基础
MLE 与 MAP
$$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log …
K 折交叉验证将数据划分为 K 份,进行 K 次训练验证,取平均性能作为评估指标。
基本原理
将数据集随机划分为 K 份,每次取 1 份验证,K-1 份训练,循环 K 次后取均值。
示例(K=5):
| |
model.train() 和 model.eval() 控制模型状态,影响 BatchNorm 和 Dropout 层的行为。
核心区别
| 方法 | BatchNorm … |
|---|
迁移学习通过复用预训练特征,在数据稀缺任务中加速收敛并提升性能。
核心优势
| 优势 | 说明 |
|---|---|
| 加速收敛 … |
机器学习训练是"数据驱动下迭代优化参数、最小化损失"的过程,核心概念包括 Epoch、Step 和 Batch Size。
通用训练流程
| 步骤 | 内容 … |
|---|
Train、Eval、Test 三集划分确保模型训练、调参与最终评估的独立性。
三集职责
| 数据集 | 占比 | 作用 | 权重更新 … |
|---|
分类任务评估指标源于混淆矩阵,Precision、Recall、F1 适用于不同场景。
混淆矩阵
| 预测正类 | 预测负类 … |
|---|
LOOCV 是 K 折交叉验证的极端情况(K=N),适用于超小数据集,最大化数据利用率。
基本流程
将 N 个样本划分为 N 份,每次取 1 个验证,N-1 个训练,循环 N 次。
示例(N=5):
| |
FPN 通过横向连接融合深层语义与浅层几何信息,解决目标检测中的多尺度问题。
核心思想
特征金字塔网络(Feature Pyramid Network, FPN)构建具有横向连接的金字塔结构,实现高效的多尺度特征表示。
$$P_i = …
ResNet 通过残差连接解决深层网络的梯度消失和退化问题,使超深网络可训练。
核心思想
ResNet(Residual Network)由何恺明等人于 2015 年提出,通过跳跃连接(skip connection)实现残差学习。
残 …
Vision Transformer(ViT)将图像分割为 Patch 序列,通过自注意力机制实现全局建模,颠覆了 CNN 主导的视觉处理范式。
核心原理
工作流程
1. 图像分块与嵌入
输入图像($H \times W \times …
因果注意力通过掩码约束,确保序列建模中当前位置仅能关注历史信息,避免未来信息泄露。
核心概念
因果注意力确保位置 $t$ 的输出仅依赖 ${x_1, \dots, x_t}$,适用于自回归生成任务。
掩码机制
在注意力分数矩阵上加下三角 …
FlashAttention 通过分块计算和算子融合,将注意力内存复杂度从 $O(N^2)$ 降至 $O(N)$,实现 2-4 倍加速。
核心原理
内存层次优化
| 存储层级 | 容 … |
|---|
MAR 通过掩码机制控制信息流,实现复杂依赖关系建模。
两种 MAR 定义
| 类型 | 全称 | 应用领域 … |
|---|
Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题(exposure bias)。
研究问题
传统方法(Teacher Forcing、Diffusion Forcing)训练时依赖真实帧,推理时依赖生成帧,导致 …
简单投影层是无复杂非线性变换的线性映射层,是知识蒸馏的基础特征对齐工具。
定义
$$z = W \cdot h + b$$
| 参数 | 说明 … |
|---|
MRL 用一个模型学习嵌套向量表示,推理时按需选择维度,无需重训。
核心思想
低维向量是高维向量的前缀:$z_{1:8} \subset z_{1:16} \subset \cdots \subset z_{1:2048}$。
训练时每 …
嵌套表示学习(MRL)通过模块化、层次化结构组织表示空间,提升模型的泛化能力与可解释性。
核心思想
MRL 是一类以模块化结构组织表示空间的学习框架:
- 模块性:表示由独立功能单元组成
- 层次性:模块存在嵌套关系,低层捕获局部特征,高层组 …
FID 和 FVD 是生成模型评估的核心指标,通过特征空间分布距离衡量生成图像和视频与真实数据的相似度。
Fréchet Inception Distance (FID)
基本概念
FID 用于评估 GAN 等生成模型性能,衡量真实数据 …
图像和视频质量评估指标分为全参考和无参考两类,LPIPS、SSIM、PSNR 是最常用的全参考指标。
全参考图像质量评估
基于像素差异
| 指标 | 公式 | 说明 … |
|---|
LPIPS(Learned Perceptual Image Patch Similarity)通过预训练神经网络提取特征计算感知相似度,比传统 PSNR/SSIM 更符合人类视觉感知。
定义与发展
LPIPS 来源于 CVPR …
变分自编码器(VAE)的理论基础,详见苏剑林博客系列。
学习资源
- 苏剑林《变分自编码器系列 …
扩散模型通过条件嵌入机制将外部信息融入去噪过程,主要方式包括交叉注意力、归一化参数动态调整、时间步联合嵌入等。
条件类型
文本条件
- CLIP 语义对齐:文本通过 CLIP 编码器生成语义向量,作为交叉注意力 Key/Value
- 交叉注 …
扩散模型损失函数以噪声预测 L2 损失(离散时间)和分数匹配损失(连续时间)为核心,其他损失多为其变体或扩展。
基础噪声预测损失
噪声预测 L2 损失(DDPM 核心)
$$\mathcal{L}{\text{simple}} = …
Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。
定义与发展历程
Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …
扩散模型学习路线分为四个阶段:基础入门 → 理论深化 → 进阶模型 → 应用实践,涵盖从 DDPM 到 Stable Diffusion 的完整知识体系。
学习路线总览
| 阶段 … |
|---|
Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。
定义与发展历程
Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …
Diffusion Transformers(DiT)融合 Transformer 架构与扩散模型,通过全局建模能力和卓越扩展性重塑图像与视频生成范式。
概述
DiT 是一种将 Transformer 架构与扩散模型相结合的生成式模型。 …
扩散模型与 Transformer 的融合通过全局建模能力和灵活条件注入显著提升生成质量与可控性。
结合机制
主干网络替换(DiT)
DiT(Diffusion Transformer)直接用 Transformer 替代传统 …
Diffusion 模型学习资源导航,涵盖综述、博客、论文和应用。
高质量综述
- What are Diffusion Models? — 英文入门介绍
- [[Diffusion Models A Comprehensive Survey …
扩散模型综述资源汇总,涵盖核心论文仓库与关键技术问题。
综述资源
核心问题
| 问题 … |
|---|
VAE 系列博客资源索引,包含变分自编码器的理论与实践。
推荐资源
该系列深入讲解 VAE 的数学原理、重参数化技巧、ELBO 推导等核心内容。
VAE(Variational Autoencoder)通过编码器-解码器架构学习数据潜在分布,结合概率图模型与深度学习实现生成能力。
定义与核心思想
VAE 是一种生成模型,核心思想是将高维数据映射到低维潜在空间,构建概率生成模型。与 …
扩散模型假设所有 $x_t$ 为高斯分布,本质是为数学可解性与训练稳定性牺牲严格性的折中方案。
扩散过程的高斯分布假设本质
前向扩散过程定义为马尔可夫链,每一步通过高斯噪声扰动:
$$q(x_t | x_{t-1}) = …
扩散模型噪声预测动态调整参数用于控制文本引导对生成结果的影响程度,常见于 Stable Diffusion 等条件生成模型。
核心参数
do_rescaling
开关参数,控制是否启用噪声预测的缩放调整功能。为 True 时执行缩放计算 …
Flow Matching 通过学习速度场实现噪声分布到数据分布的平滑转换,兼具高质量样本与快速采样优势。
核心概念
Flow Matching 是基于连续归一化流(CNF) 的生成模型训练框架。通过学习时间相关的向量场,将简单先验分布 …
Rectified Flow 通过直线路径优化实现高效去噪,仅需 20-50 步即可完成生成。
核心创新
传统扩散模型局限
- 计算复杂,需维护噪声系数表
- 步数多(通常 1000 步)
- 随机性控制困难
Rectified Flow 解决 …
Berkeley Function-Calling Leaderboard (BFCL)是首个全面评估LLM工具调用能力的榜单,涵盖多语言、多场景。
数据集特点
- 2K …
Python 的
ast模块将源代码解析为抽象语法树,支持静态分析、自动化重构和元编程。
核心功能
| 功能 | 函数/类 | 说明 … |
|---|
Function Call是大模型理解指令并调用预定义函数的能力,使其从文本生成工具进化为智能助手。
核心流程
| 步骤 | 说明 … |
|---|
2025 年 LLM 架构通过 MoE、注意力机制优化、小模型设计实现"用巧劲让参数用在刀刃上"。
DeepSeek-V3/R1:压缩缓存 + 选专家
| 设计 … |
|---|
SGLang是UC Berkeley等机构开发的开源框架,通过协同设计前端DSL语言与后端高性能运行时,解决LLM应用开发中"编程复杂"和"推理低效"两大痛点。
核心架构
前后端协同设计 …
DeepSpeed是微软开源的分布式训练优化框架,通过ZeRO技术实现千亿级模型训练,单卡显存占用降至传统方法的1/N。
核心价值
| 维度 | 说明 … |
|---|
H100的int8 Tensor Core仅对原生
int8×int8矩阵乘加速,量化后转回float32会绕开该硬件单元。cuBLASLt是显式调度Tensor Core的解决方案。
核心问题
当前量化流程:
|
MPI(Message Passing Interface)是跨节点分布式训练协议,通过消息传递实现设备间通信,适用于大规模集群环境。
MPI多机多卡训练原理
核心概念
| 概念 … |
|---|
RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。
核心定义
RLHF通过收集人类偏好数据(优劣排序、满意度评分 …
PyTorch分布式训练通过多设备并行计算加速模型训练,从基础
DataParallel到FSDP,覆盖不同规模的训练需求。
分布式训练类型
| 类型 | 说明 … |
|---|
Focal Loss 通过降低易分类样本权重,使模型专注于困难样本,解决类别不平衡问题。
公式
$$FL(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$$
参数:
- $p_t$:模型对正确类别的 …
图像分割评估指标分为区域重叠类(IoU、Dice)和边界精度类(Hausdorff、ASD)。
核心指标
| 指标 | 公式 | 范围 | 适用场景 … |
|---|
多模态检索 Embedding 模型将图像、文本映射到统一语义空间,实现跨模态检索。
主流模型对比
| 模型 | 维度 | 参数量 | 特点 … |
|---|
图像抠图(Image Matting)从图像中精确提取前景对象,处理半透明边界。
与图像分割的区别
| 特点 | 图像抠图 | 图像分割 … |
|---|
EfficientSAM 通过掩码图像预训练(SAMI)实现轻量级分割模型,在降低参数量的同时保持性能。
方法
SAMI 预训练:
- 基于 MAE,重建 SAM 图像编码器(ViT-H)的特征而非像素
- 使用轻量级 …
Grounded-SAM 结合 Grounding DINO 和 SAM,通过 RAM/Tag2Text 实现自动图像标注。
环境配置
| |
Grounded-SAM 结合 Grounding DINO 和 SAM 实现文本引导的自动分割,配合 RAM/Tag2Text 可全自动生成标签。
环境配置
| |
SAM 2 是面向图像和视频的可提示分割基础模型,采用基于记忆的流式架构。
核心创新
| 特性 | 说明 |
|---|---|
| 统一模型 … |
Segment Anything(SA)项目创建图像分割基础模型,包含可提示分割任务、SAM 模型和 SA-1B 数据集。
核心组件
| 组件 | 内容 … |
|---|
Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。
模型规格
| 变体 | 参数量 … |
|---|
YOLO-World 是开放词汇目标检测模型,支持通过文本提示检测任意类别。
核心特点
- 开放词汇:不限于预训练类别,可通过文本提示检测新物体
- 实时检测:保持 YOLO 系列的高速特性
- 视觉语言融合:结合 CLIP 等视觉语言模型
应 …
YOLO、SAM、Florence 分别代表高效检测器、通用分割、统一视觉语言模型三种技术路线。
模型概览
YOLO 系列
实时目标检测的首选,YOLO11-medium 以 20.1M 参数实现 51.5% mAP。 …
YOLO(You Only Look Once)是单阶段目标检测算法,将检测转化为回归问题,实现实时检测。
核心思想
- 单阶段框架:直接预测边界框和类别
- 网格划分:图像划分为 S×S 网格,每个网格预测 B 个框
- 端到端:一次前向传播完 …
CoTracker3 通过伪标签训练实现高效点追踪,用 1000 倍更少数据超越 SOTA。
核心创新
| 创新 | 说明 … |
|---|
I3D(Inflated 3D ConvNet)通过"膨胀"2D 卷积核到 3D,实现从图像到视频的知识迁移。
核心思想
2D 到 3D 膨胀:
$$W’{i,j,k,l,m} = \frac{W …
InternVideo2 通过三阶段渐进式训练框架,整合掩码视频建模、跨模态对比学习和下一 token 预测,在 70+ 视频任务上实现 SOTA。
核心方法
| 阶段 | 目标 … |
|---|
RAFT(Recurrent All-Pairs Field Transforms)是光流估计的 SOTA 方法,通过递归更新实现高精度。
核心思想
- 从每个像素提取特征
- 构建多尺度 4D 相关体积
- 递归单元迭代更新光流场
性能 …
TransNetV2 是视频镜头边界检测(SBD)的深度学习方案,准确率比传统方法提升 20%+。
核心优势
| 对比 | 传统方法 | TransNetV2 … |
|---|
TransNetV2 是视频场景边界检测(SBD)模型,通过双路径架构识别镜头切换和渐变效果,准确率 96.2%。
核心改进
| 版本 | 改进 | 准确率 … |
|---|
小波多尺度分析通过不同层级捕捉视频速度操作的痕迹,结合机器学习实现视频真伪鉴定。
分层等级含义
| 层级 | 捕捉内容 | 视频分析对应 … |
|---|
点追踪关注稀疏关键点轨迹,光流估计计算稠密像素运动场。
相同点
- 估计物体/点的运动轨迹
- 提取视觉特征建立帧间匹配
- 用于运动分析、目标跟踪、SLAM
核心差异
| 维度 | 点追踪 … |
|---|
query是用户问题,doc是候选答案,是检索和Reranker的基础概念。
核心概念
| 概念 | 说明 |
|---|---|
| query … |
RAG(Retrieval-Augmented Generation)通过检索外部知识库增强生成模型,解决纯生成模型依赖训练数据的局限。
核心架构
| 模块 | 说明 … |
|---|
Reranker 是排序模型,训练目标是让相关 doc 的分数 > 不相关 doc,核心围绕 (query, doc) 对的相关性打分展开。
基础训练数据单元
| 字段 | 含 … |
|---|
Reranker通过Cross-Encoder深度建模查询与文档的语义匹配,对初步召回结果精排,在RAG场景中提升检索准确性20%-50%。
核心定位
| 阶段 | 方法 … |
|---|
QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。
核心架构
| 模块 … |
|---|
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 基于同一骨干网络构建端到端多模态检索框架,在 MMEB-V2 等基准达到 SOTA 性能,同时兼顾部署效率与多语言能力。
研究背景
- 多模态内容爆发:互联网海 …
双编码器架构通过为查询和文档分别设计独立编码支路,将两者映射到同一语义空间,实现高效的向量相似度匹配,是多模态检索召回层的核心架构。
Bi-Encoder 核心原理
三大原则:
- 独立编码:查询和文档通过共享编码器完成特征提取,彼此无信 …
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 采用三阶段递进式训练:对比预训练构建基础→多任务精调提升特异性→蒸馏融合补齐短板,实现多模态检索 SOTA 性能。
核心前提
- 两模型均基于 …
LTX Video 开源推理命令行工具,支持文本和图像条件生成视频。
推理命令
| |
LTX-Video 的 VAE 实现 1:192 高压缩比,通过时空下采样和解码器双重任务优化视频生成效率。
VAE 核心设计
高压缩效率
- 压缩比:1:192(空间 32 倍 + 时间 8 倍)
- 效果:大幅减少 Transformer …
Wan 基于基础模型扩展 8 类下游任务,通过统一条件注入和适配器设计实现多任务复用。
图像到视频(I2V)
- 将输入图像作为第一帧
- 二进制掩码区分"保留帧"与"生成帧"
- 跨注意力注入 CLIP …
Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器,协同完成文本到视频生成。
整体流程
- 文本编码:umT5 将输入文本转换为语义嵌入向量
- Latent 映射 …
Wan 针对大规模视频生成的计算与内存瓶颈,设计了并行策略、内存优化、推理加速三大模块。
并行训练策略
采用 2D 上下文并行(CP)+ FSDP + DP 混合并行架构:
| 策略 … |
|---|
Phantom 数据管道构建文本-图像-视频三元组,通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。
五阶段流程
1. 数据采样与过滤
| 步骤 | 说明 … |
|---|
K 折交叉验证将数据分成 K 份,进行 K 次训练验证,充分利用数据提高评估稳定性。
基本步骤
- 将数据集随机拆分成 K 份
- 每次选择 1 份作为验证集,其余 K-1 份作为训练集
- 进行 K 次训练和验证
- 计算 K 次评估指标均值作为最 …
自回归模型(AR)利用历史数据预测未来值,是时间序列分析和 NLP 自回归生成的基础。
基本定义
$p$ 阶自回归模型 $AR(p)$:
$$y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + …
VACE 支持参考转视频、视频编辑、掩码编辑等多任务,数据构建需覆盖多模态输入。
数据构建核心目标
在保证视频质量前提下,通过实例级视频分析,构建覆盖文本、图像、视频、掩码、参考等模态的训练数据。
视频预处理流程 …
高频细节的"重建"与"生成"本质区别在于信息来源:前者依赖 latent 保留的原始信息,后者依赖模型习得的统计规律。
核心区别
| 概念 … |
|---|
!%%%%Pasted image 20250811100312.png%% TODO: 附件路径需要手动确认%% TODO: 附件路径需要手动确认
生成和重建高频信息的区别
在这段文字的语境中,“重建”(reconstruct)和“生成 …
机器学习知识体系导航,涵盖数学基础、常用模型和 PyTorch 框架。
入门
[[机器学习入门]]
数学基础
| 领域 | 核心内容 | 应用场景 … |
|---|
3D RoPE 将传统旋转位置编码从一维扩展到三维(时间+空间),为视频 Transformer 提供时空位置感知能力。
核心原理
维度分配策略
将注意力头维度拆分为三部分:
| |
RoPE 理论上具备无限外推潜力,但实际需结合插值优化才能扩展至训练长度的数十倍。
理论基础
旋转机制连续性
位置 $m$ 的旋转角度为 $m\theta_i$,其中 $\theta_i = 10000^{-2i/d}$:
- 旋转角度随 …
RoPE 通过旋转矩阵将位置信息编码到向量方向,使注意力分数天然包含相对位置信息。
核心公式
$$\langle \text{RoPE}(\mathbf{q}_m, m), \text{RoPE}(\mathbf{k}_n, n) …
KV Cache 通过缓存历史 K、V 矩阵,将 LLM 自回归推理复杂度从 $O(n^2)$ 降至 $O(n)$,是推理优化的核心技术。
核心原理
工作流程
| 阶段 | 操作 … |
|---|
DBSCAN 是基于密度的聚类算法,能发现任意形状的簇并自动识别噪声点,无需预设簇数量。
核心概念
| 概念 | 定义 … |
|---|
Gini 重要性(平均不纯度减少)是随机森林中评估特征重要性的核心指标,通过量化特征对节点分裂的贡献度进行排序。
定义
特征重要性 = 该特征在所有决策树中带来的基尼不纯度减少量的平均值。
数学推导
基尼不纯度
$$G = 1 - …
PCA 是经典无监督降维方法,通过线性变换将数据投影到新坐标系,使方差最大化。
工作原理
- 数据中心化:去掉每个特征的均值
- 协方差矩阵:计算特征间的相关性
- 特征分解:得到特征向量(主成分)和特征值(方差)
- 选择主成分:选取最大特征值对应 …
t-SNE 是一种非线性降维技术,擅长将高维数据映射到二维或三维空间进行可视化,特别适合揭示数据的聚类结构。
核心思想
t-SNE 的目标:在低维空间中,保持高维空间中相似点的邻近关系。
形象比喻:
- PCA:绘制世界地图,保持全局结构 …
张量并行(TP)和流水线并行(PP)是分布式训练中两种不同的并行策略:TP 在层内拆分权重,PP 在层间拆分层序列。
核心本质区别
| 维度 | 张量并行 (TP) … |
|---|
ViT 将 Transformer 架构引入计算机视觉,通过自注意力机制捕捉全局依赖,在大规模数据集上超越传统 CNN。
核心流程
| 步骤 | 说明 … |
|---|
XGBoost 是极致优化的梯度提升框架,通过并行处理、正则化和近似算法显著提升性能。
目标函数
$$\mathcal{L}(\phi) = \sum_{i} l(\hat{y}_i, y_i) + \sum_k …
交叉熵损失衡量模型预测概率分布与真实标签分布的差异,是分类任务的核心损失函数。
数学定义
二分类
$$\text{CE}(p, y) = - [y \log(p) + (1 - y) \log(1 - p)]$$
多分类 …
优化器状态是深度学习训练中优化器为自适应更新而维护的辅助变量,是显存占用的核心来源之一。
核心定义
优化器状态:优化器迭代更新参数时保存的"历史梯度信息",与模型参数维度一致。
为什么需要优化器状态?
以 Adam …
似然函数和概率分布函数是统计推断的核心概念。概率分布描述随机变量的分布行为,似然函数则基于观测数据推断模型参数。
概率分布函数 (PDF)
概率分布函数描述随机变量在特定取值下的概率。
离散型随机变量
概率质量函数(PMF)定义: …
[[余弦相似度]]
余弦相似度衡量向量方向一致性,广泛用于文本检索、对比学习等场景。
基础实现(NumPy)
| |
信息瓶颈理论由 Naftali Tishby 等人提出,用于理解神经网络学习中的信息处理和表示学习。
核心概念
神经网络学习过程可视为信息压缩:去除输入数据冗余信息,保留任务关键信息。
关键要素 …
可逆结构允许在反向传播时从前向传播的输出重建输入,无需存储中间激活值,显著降低显存占用。
Reversible structures enable reconstructing inputs from outputs during …
子聚类在已有聚类基础上进一步细分,揭示数据更细粒度结构。
目的
- 发现更细致的结构
- 提高聚类精度
- 增强可解释性
应用场景
| 场景 | 说明 … |
|---|
PyTorch
nn模块提供多种损失函数,适用于不同任务。选择合适的损失函数对模型训练至关重要。
二分类任务损失函数
| 损失函数 | 说明 | 配置 … |
|---|
不同损失函数适用于不同任务:Focal Loss 处理类别不平衡,Dice Loss 适合图像分割,交叉熵用于分类,MSE/L1 用于回归,Huber Loss 对离群值鲁棒。
交叉熵损失 (Cross Entropy Loss)
衡量 …
本科毕业阶段应掌握的数学基础,涵盖微积分、线性代数、概率统计、离散数学。
微积分
极限与连续
$$\lim_{x \to a} f(x) = L$$
函数 $f(x)$ 在点 $x=a$ 处连续:$\lim_{x \to a} f(x) …
机器学习让计算机通过数据自动学习规律解决问题,核心三要素:数据、模型、优化。
概念辨析
| 概念 | 定义 |
|---|---|
| 机器学习 … |
概率论学习需建立从基础到高级的知识框架,结合微积分、线性代数等数学工具,通过理论学习和编程实践加深理解。
数学基础
概率论涉及以下数学工具:
| 基础学科 | 应用场景 … |
|---|
!模型对比.md
!张芷铭-2022141133-第2次作业.pdf
模型参数数量决定 checkpoint 文件大小,受数据类型、优化技术和存储格式影响。
参数数量计算
| 层类型 | 参数计算公式 … |
|---|
正则表达式因应用场景不同形成了多种语法风格,主要分为 POSIX、PCRE、.NET、JavaScript 等流派,各风格在功能、语法规则和兼容性上存在差异。
正则表达式语法风格分类
POSIX 正则表达式
由 IEEE 制定的跨平台标 …
正态分布(高斯分布)是统计学中最常见的概率分布,自然界中大量现象遵循此分布。
数学定义
概率密度函数: $$f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x …
注意力机制让模型动态关注输入的不同部分,Self-attention 处理序列内部关系,Cross-attention 处理跨序列交互。
Self-attention(自注意力)
同一序列内部元素间的信息交互,每个元素根据与其他元素的关 …
三种学习范式对比
| 类型 | 数据特点 | 目标 | 常见算法 |
|---|---|---|---|
| 监督学习 … |
聚类是无监督学习的核心任务,将样本划分为组,使组内相似、组间相异。
算法谱系
| 类别 | 代表算法 |
|---|---|
| 原型划分 … |
聚类是无监督学习的核心技术,将数据按相似性分组,使同组内对象相似度高、组间相似度低。
聚类 vs 分类:聚类是无监督学习,无预先定义的标签,基于数据本身相似性发现内在结构;分类是监督学习,依赖带标签的训练数据进行类别预测。
发展历程 …
轮廓系数和 Calinski-Harabasz 指数用于评估聚类效果,判断数据点是否"内紧外松"。
核心指标对比
| 指标 | 核心思想 | 公式 … |
|---|
量子计算基于量子力学原理,通过叠加态和纠缠态实现并行计算,是突破经典计算瓶颈的新型范式。
核心概念
| 概念 | 说明 |
|---|---|
| 量 … |
随机森林回归通过集成多棵决策树提升泛化能力,采用 Bootstrap 抽样和特征随机性降低方差。
算法原理
集成学习框架
- Bootstrap 抽样生成 M 个子训练集
- 每个子集独立训练一棵 CART 回归树
双重随机性 …
马尔可夫链具有无记忆性:未来状态仅与当前状态有关,与历史状态无关。
数学表示
状态转移概率: $$P(X_{t+1} = s_j | X_t = s_i) = P(X_{t+1} = s_j | X_t = s_i)$$
转移概率矩阵 …
Label Studio 是开源数据标注平台,支持图像、视频、文本等多模态标注。
资源
- 官方文档:https://labelstud.io
- Label Anything 示例 …
3D 卷积在高度、宽度、深度三个维度上滑动提取特征,适用于视频分析和医学影像等三维数据。
基本概念
数学定义:
$$\text{Output}(x, y, z) = \sum_{i,j,k} W(i, j, k) \cdot …
AdaLN 将条件向量动态生成 LayerNorm 的缩放和平移参数,是 DiT、文生图/文生视频大模型的核心组件。
核心原理
标准 LayerNorm 固定参数无法适配动态条件信号,AdaLN 将 $\gamma$ 和 $\beta$ …
ConvNeXt 融合 Transformer 设计思想,现代化升级 CNN 架构,性能接近 ViT 同时保持高效计算。
核心特点
| 特点 | 说明 … |
|---|
门控卷积通过可学习的门控值动态调整特征权重,实现对有效/无效像素的区分。
核心思想
$$g = \sigma(W_g \ast x), \quad y = \phi(W \ast x) \odot g$$
- $W_g$:门控卷积核 …
Inception-v1(GoogLeNet)通过多尺度并行卷积结构,在参数量仅为 AlexNet 的 1/12 下实现 6.67% Top-5 错误率。
Inception 模块
四个并行分支捕获多尺度特征: …
MAE 通过高比例掩码(75%)和不对称编解码结构,实现高效的视觉自监督学习。
核心设计
| 设计 | 说明 |
|---|---|
| 不对称架构 … |
ResNet 通过残差连接解决深度网络的梯度消失问题,使网络深度突破 1000 层。
定义
残差网络(Residual Network, ResNet)的核心创新是残差学习机制:
$$y = F(x, {W_i}) + x$$
跳跃连接 …
时序因果卷积确保卷积操作仅依赖当前及过去时刻的数据,避免未来信息泄露,是时间序列任务的核心技术。
核心概念
因果卷积在时刻 $t$ 的输出 $y_t$ 仅依赖输入序列 ${x_1, x_2, \dots, x_t}$:
$$y_t = …
TResNet 通过反混叠降采样、SpaceToDepth、Inplace-ABN 等优化,在相同 FLOPs 下显著提升 ResNet 精度。
主要创新
| 技术 | 作用 … |
|---|
nnUNet 训练脚本提供丰富的命令行参数,控制模型训练、验证和预测流程。
主要参数
| 参数 | 类型 | 说明 … |
|---|
UNet 通过编码器-解码器结构和跳跃连接实现多层次特征融合,是医学影像分割的基准模型。
模型结构
编码器(收缩路径)
- 卷积块:两次 3×3 卷积 + BatchNorm + ReLU
- 池化层:2×2 最大池化,尺寸减半,通道翻倍
- 示 …
Transformer 输入流动:嵌入→编码器 6 层→解码器 6 层→线性变换→Softmax 输出概率。
编码器输入处理
嵌入层
Token 通过嵌入矩阵 $W_{embed} \in \mathbb{R}^{V \times …
Deformable 卷积通过学习采样点偏移量,使感受野自适应调整,适应几何变形。
基本原理
传统卷积采样点固定,Deformable 卷积引入可学习的偏移量 $(\Delta x, \Delta y)$:
$$p = (x + …
空洞卷积(Atrous Convolution)通过在卷积核采样点间插入间隔扩大感受野,参数量不变。
基本原理
空洞卷积(又称扩张卷积)通过**空洞率(dilation rate, $r$)**控制采样点间隔。
公式:
$$y[i] = …
AdaLN 动态生成 LayerNorm 的缩放和平移参数,是扩散模型中高效融合条件信息的核心组件。
核心原理
标准 LayerNorm 固定 $\gamma$ 和 $\beta$:
$$\text{LN}(x) = \gamma …
AdaIN 通过风格特征的统计量重参数化内容特征,实现高效的任意风格迁移。
核心公式
$$\text{AdaIN}(x,y)=\sigma(y)\frac{x - \mu(x)}{\sigma(x)}+\mu(y)$$
- $x$:内容特 …
CBAM 通过通道注意力和空间注意力串联,轻量高效地增强 CNN 特征表达能力。
整体结构
输入特征图 $\mathbf{F} \in \mathbb{R}^{C \times H \times W}$ 依次经过通道注意 …
绝对位置编码为序列中每个位置分配唯一向量,弥补自注意力机制的位置无关性。
核心概念
绝对位置编码(APE)通过加法注入位置信息:
$$X_{pos} = E_{word} + P_{pos}$$
其中 $P_{pos} \in …
MLP 训练效果取决于超参数配置:学习率、批量大小、优化器、正则化策略缺一不可。
学习率(lr)
学习率决定参数更新步长:
| 学习率范围 | 问题 … |
|---|
SM(Streaming Multiprocessor)是 GPU 的核心并行计算单元,GPU 是 SM 的集合,SM 是计算核心的集合。
核心定位
SM 是执行 SIMT 并行任务的最小独立单元:
- A100:108 个 SM
- RTX …
一个 batch 内的参数优化流程:前向传播 → 损失计算 → 反向传播 → 参数更新。
1. 前向传播
对 batch 数据执行前向计算:
$$Y_{\text{pred}} = f_{\theta}(X)$$
其中 $X$ 为输入( …
多尺度监督通过不同尺度层次施加监督信号,显著提升模型特征学习能力。
数学基础
图像 $I(x,y)$ 在尺度 $\sigma$ 下的表示:
$$L(x,y,\sigma) = G(x,y,\sigma) * I(x,y)$$
特征金字塔 …
归纳偏置(Inductive Bias)是模型在学习过程中引入的先验假设,帮助模型在有限数据下做出合理推断。
定义
归纳偏置是模型对问题结构的偏向或假设,限制或引导模型决策。它使模型能从有限训练数据推断一般规律,而非仅记忆数据。
核心作 …
渐进式蒸馏通过分阶段知识迁移,实现高效模型压缩与轻量化。
技术原理
| 阶段 | 学习内容 |
|---|---|
| 初级 | 教师 … |
自回归(AR)通过历史数据预测当前值,是时间序列分析的基础方法。
数学表达
$$y_t = \alpha + \sum_{i=1}^{p} \beta_i y_{t-i} + \epsilon_t$$ …
蒸馏投影层解决师生模型特征空间不匹配问题,是知识蒸馏的关键组件。
定义
投影层是附加在中间特征层或输出层的小型神经网络模块,核心目的:
- 特征空间对齐:将师生特征映射到共享空间
- 距离度量优化:使投影后特征可准确度量知识差异
发展历程 …
Wan2.1 是阿里云开源的视频生成模型,支持文本到视频、图像到视频生成。
项目地址:https://github.com/Wan-Video/Wan2.1
通义万相 2.1 是阿里云开源的视频生成模型,首创中文特效字幕生成和无限长视频生成技术。
详细介绍:https://zhuanlan.zhihu.com/p/6853326128
ControlNet 通过零卷积分支将空间条件信号注入扩散模型,实现像素级结构控制,解决了传统扩散模型难以精确控制构图、姿态的痛点。
核心原理
架构设计
在 Stable Diffusion 架构中增加"控制分支", …
DDPM(Denoising Diffusion Probabilistic Models)通过模拟扩散过程将数据逐步转化为噪声,再学习逆向去噪恢复数据。
参考资料:Diffusion Models Papers Survey
扩散过程 …
VAE 变分下界(VLB)推导通过变分推断优化负对数似然,最终转化为可计算的 KL 散度组合。
问题定义
目标:最小化观测数据 $\mathbf{x}_0$ 的负对数似然:
$$L_{\text{CE}} = …
扩散模型方法与应用的全面综述,涵盖采样加速、似然最大化、特殊数据结构、多模态融合等核心方向。
论文:Diffusion Models: A Comprehensive Survey of Methods and Applications …
DiT(Diffusion Transformer)将 Transformer 作为扩散模型骨干网络替代传统 U-Net,利用全局注意力机制和卓越扩展性,显著提升图像与视频生成的质量和效率。
核心思想
DiT 通过 …
==⚠ Switch to EXCALIDRAW VIEW in the MORE OPTIONS menu of this document. ⚠== You can decompress Drawing data with the …
TAESD 是 Stable Diffusion 原始 VAE 的微型蒸馏版本,通过大幅减少参数量(编码器/解码器均降至 122 万参数)实现高效编码解码,适合实时预览和资源受限场景。
模型定位
TAESD(Tiny …
变分法通过优化泛函极值近似复杂分布,是 VAE、DDPM 等生成模型的理论基础。
变分原理的基本概念
变分(Variational)源自变分法,研究在给定约束条件下极小化或极大化泛函的方法。泛函是将函数映射到实数的规则:
$$J[f] …
扩散模型将生成过程视为逐步去噪,通过前向扩散将数据转换为噪声、反向过程学习恢复,在生成质量、训练稳定性、条件控制能力上取得显著突破。
生成模型演进
| 模型 | 核心思想 … |
|---|
Diffusion Models 关键问题
高斯假设的合理性
问题:Diffusion models 假设每一步加噪和去噪的中间结果 $x_t, t=1…T$ 都是高斯分布,但 $x_0$ 是真实世界图像的分布,在 $t$ 较 …
自回归模型(AR)通过历史数据预测当前值,是时间序列分析的核心方法,广泛应用于视频编码、金融预测等领域。
自回归模型基础
基本假设:当前时刻值 $X_t$ 可表示为前 $p$ 个时刻值的线性组合加白噪声误差:
$$X_t = c + …
权威榜单是大模型选型的核心参考。按"通用+场景补充"思路快速完成科学选型。
通用LLM榜单
| 榜单 | 特点 | 适用场景 … |
|---|
Chatbot Arena是LMSYS推出的匿名随机PK评测平台,基于Elo评分系统对大语言模型进行排名。
核心机制
| 机制 | 说明 … |
|---|
GSM(Grade School Math)是OpenAI发布的小学数学问题数据集,用于评估语言模型的数学推理能力。
MMLU(Massive Multitask Language Understanding)是ICLR 2021发表的跨学科多任务语言理解基准测试。
GitHub - standardgalactic/mmlu
MMLU覆盖多个学科领域 …
GoEx(Gorilla Execution Engine)是面向自主 LLM 应用的运行时系统,通过"事后验证"策略解决自动化操作的安全问题。
Gorilla 是基于 LLaMA 微调的模型,专门用于 API 调用生成,在 API 功能性准确率上超越 GPT-4。
LLM 学习路线分为入门、提高、应用、深入四个阶段,从基础知识到生产部署全面覆盖。
入门篇
| 资源 | 说明 |
|---|---|
| 大语言模型 … |
LoRA(Low-Rank Adaptation)通过低秩分解将权重矩阵拆分为两个小矩阵相乘,训练时只更新低秩矩阵,显著降低大模型微调的计算和存储成本。
核心原理
将权重矩阵$W \in \mathbb{R}^{m \times n}$ …
Prefill 不是 Encoder。主流 LLM 是 Decoder-only 架构,Prefill 是解码器的一次性前向传播,构建 KV Cache。
核心结论
Prefill ≠ Encoder
- 主流 …
Qwen3.5是阿里通义千问面向原生多模态智能体的新一代系列,以稀疏MoE为主、稠密为辅,支持201种语言,原生上下文256K。
系列总览
| 组别 | 架构 | 核 … |
|---|
Qwen3 系列以"全规模、全模态、高效率"为核心,通过密集+MoE 并行、原生多模态建模构建完整 AI 能力栈。
模型矩阵
| 模型类别 | 核心产品 … |
|---|
SGLang是大语言模型结构化生成的领域专用语言,通过声明式语法和编译优化实现可控、高效的LLM生成。
核心定位
- 领域专用语言(DSL):面向LLM生成任务,与Python无缝集成
- 结构化输出:强制LLM生成符合格式(JSON、表格、 …
SSM(Structured State Space Models)通过状态空间方程将序列建模为线性时不变系统,计算复杂度O(N),在长序列处理上优于Transformer的O(N²)。
核心优势 …
T5(Text-to-Text Transfer Transformer)将所有 NLP 任务统一为"文本到文本"格式,基于编码器-解码器架构处理翻译、分类、摘要、问答等任务。
核心设计 …
T5通过统一的文本到文本框架处理各类NLP任务,采用Encoder-Decoder架构,相对位置编码,RMSNorm归一化。
核心架构
| 组件 | 说明 … |
|---|
Tokenizer将文本转化为模型可处理的数值形式,是NLP预处理的核心步骤。
核心作用
| 步骤 | 说明 |
|---|---|
| 文本切分 … |
Transformer通过自注意力机制实现序列建模,是现代大语言模型的基础架构。
核心架构
| 组件 | 说明 … |
|---|
主流生成式大模型(GPT、LLaMA、Claude、Qwen)全部采用纯Decoder架构,Encoder对生成任务纯冗余。
架构对比
| 架构 | 特点 | 适用场 … |
|---|
混合专家模型(MoE)通过稀疏激活机制,每次只激活部分专家网络,在不增加推理成本的情况下扩展模型容量。
核心原理
| 组件 | 说明 … |
|---|
大语言模型(LLM)是包含数千亿参数的 Transformer 语言模型,通过大规模文本训练展现理解自然语言和解决复杂任务的强大能力。
NLP 技术迭代
| 阶段 | 代表技术 … |
|---|
大模型评测是衡量大规模 AI 模型性能的多维度过程,涵盖准确性、泛化能力、公平性、效率和安全性。
评测维度
| 维度 | 说明 … |
|---|
MFU(Model FLOPs Utilization)是LLM推理性能的本质标尺,衡量硬件算力的有效利用率。2nd Forward FLOPs是决定推理上限的关键,占推理总耗时的90%以上。
MFU核心定义
MFU = 模型有效算力 …
Prefill(预填充)是LLM自回归推理的首个核心阶段,一次性处理完整输入序列并初始化KV Cache,直接决定首token延迟(TTFT)。
核心定位
Prefill是"一次性阅读与缓存构建"阶段,与后续 …
vLLM是UC Berkeley LMSYS团队开源的大模型推理框架,核心创新是PagedAttention分页注意力机制,将显存利用率提升至90%以上,在相同硬件下实现数倍至数十倍的吞吐提升。
vLLM概述
vLLM是专为大语言模型/ …
VLM离线推理中,MFU是衡量GPU效率的核心指标。本文澄清两个常见误区。
误区一:小参数VLM推理MFU应和大模型接近
结论:小参数VLM(如2B)推理MFU天然低于大模型,是正常现象。
核心原因: …
全量激活重计算(Full Activation Recomputation)是大模型训练中最彻底的"用算力换显存"技术:前向只保留每层输入,反向时整层重跑前向再算梯度。
核心原理
不存中间激活,反向时整层重算,把显存 …
大模型训练/推理的端到端吞吐优化三大核心技术:算子融合、多模态GEMM调度、显存/激活管理。
Adaln Varlen Fuse
核心原理
- Adaln:LayerNorm + 可学习缩放/偏移参数,适配多模态输入分布差异
- Varlen …
端到端吞吐优化三项核心技术:算子融合、多模态GEMM调度、显存/激活管理,分别从不同维度突破瓶颈。
Adaln Varlen Fuse(自适应层归一化 + 变长序列融合)
核心原理
| 组件 … |
|---|
MFU(Model FLOPs Utilization)是模型浮点运算利用率,衡量AI芯片算力利用效率的核心指标。训练MFU > 50%、推理MFU > 70%为高效。
主流芯片LLM/VLM实测MFU
NVIDIA GPU …
训推一致(Train-Inference Consistency)指训练与推理阶段的数据、计算、分布、精度全链路完全等价,是算法落地的核心前提。
核心定义
训推一致:相同输入 → 训练与推理输出数值误差≤1e-4 …
Megatron是NVIDIA开发的超大规模深度学习训练框架,专为训练数十亿到数千亿参数的Transformer模型设计。
核心特点
| 特性 … |
|---|
torchrun是PyTorch分布式训练命令行工具,支持单机多卡和多机多卡训练。
基本用法
| |
常用参数 …
单张GPU显存和算力往往无法满足大模型需求。并行方案的核心是把"计算任务"或"模型/数据"拆分到多个设备,突破硬件瓶颈。
纯数据并行(DP)
核心定义
所有设备保存完整模型参数、梯度和优化器状态, …
模型迁移训练时,新增模块应零初始化,确保修改后的ckpt载入后对原任务输入产生相同输出。
核心原则
目标:保留模型原本能力,同时适配新任务。
方法:添加新模块而非修改原有结构,新增权重零初始化。
原理
设原模型参数$\theta$,新增 …
混合精度训练结合FP32和FP16浮点数,在保持精度的同时降低50%显存占用、提升2-3倍训练速度。
浮点格式对比
| 类型 | 符号位 | 指数位 … |
|---|
RANSAC 通过随机采样和一致性验证,从含噪声数据中鲁棒地估计模型参数,是计算机视觉的基础工具。
核心原理
基本假设:数据由内点(符合模型)和外点(异常值)组成。
迭代流程:
- 随机采样最小样本子集
- 估计模型参数
- 验证一致性(统计内点 …
DETR 将目标检测建模为集合预测问题,通过二分图匹配和 Transformer 实现端到端检测。
论文:End-to-End Object Detection with Transformers
核心思想
- 集合预测:直接输出固定数量 …
HED(全嵌套边缘检测)通过多尺度深度学习提取高质量图像边界,解决传统算法对噪声敏感和弱边缘断裂的问题。
核心原理
HED 基于 VGG16 全卷积网络,采用多尺度特征融合 + 分层监督:
| 模块 … |
|---|
OpenCV 是开源计算机视觉库,提供图像处理、特征检测、视频分析等功能,支持 C++、Python、Java。
安装
| |
SAM(Segment Anything Model)是 Meta 推出的图像分割基础模型,通过可提示分割实现零样本泛化。
核心问题
- 什么任务能实现零样本泛化?
- 对应的模型架构是什么?
- 什么数据支撑该任务和模型?
任务定义
可提示分 …
YOLOv9 通过可逆结构和多级辅助信息解决信息瓶颈问题,GELAN 架构融合 CSPNet 与 ELAN。
核心创新
| 技术 | 说明 … |
|---|
C3D 首次将 3D 卷积成功应用于视频理解,通过时空三维卷积核同时捕捉空间外观和时序运动特征。
核心原理
3D 卷积数学表达:
$$O(t,x,y) = \sum_{i,j,k} W(i,j,k) \cdot V(t+i, x+j, …
HERMES 模拟人类情景与语义记忆机制,实现长视频的高效理解。
核心模块
| 模块 | 功能 | 优势 … |
|---|
SLAM(即时定位与地图构建)让机器人在未知环境中同时完成自身定位和环境建模,是自动驾驶、服务机器人的核心技术。
核心问题
- 定位:确定机器人实时位姿
- 建图:构建环境空间表示
- 耦合性:定位依赖地图精度,建图依赖定位准确性
系统架构 …
视频分类为视频分配语义标签,核心挑战是时序建模、计算复杂度和标注成本。
主流方法
基于 2D CNN
帧级特征聚合:
$$P(y|v) = \frac{1}{T}\sum_{t=1}^{T}f_{\theta}(x_t)$$
代表 …
视频目标分割(VOS)在视频中分割特定目标,主流方法包括 SAM2 等基础模型。
资源
- 项目收集:https://github.com/gaomingqi/awesome-video-object-segmentation
- 相关 …
Train-Avg Probability 是模型置信度的"体温计",能提前发现过拟合、数据不平衡等潜在问题。
健康范围
| 概率值 | 状态 … |
|---|
InternVL通过设计参数对齐的视觉编码器InternViT-6B和语言中间件QLLaMA,解决传统glue layer的连接效率问题。
核心设计
| 组件 | 说明 … |
|---|
MMBench 是高质量、多样化的多模态评测基准,采用 CircularEval + LLM 答案提取,支持双语。
特点
| 特点 | 说明 … |
|---|
Panda-70M 是包含 7000 万视频-字幕对的大规模数据集,通过多模态教师模型自动生成高质量字幕。
论文:https://arxiv.org/abs/2402.19479 网站 …
2025 年视频生成领域呈现技术-场景-生态三角驱动格局,中国团队在中文场景和成本控制上表现突出。
国际前沿
OpenAI Sora
- 60 秒 1080P 视频生成
- DiT 架构解决时序一致性
- 物理模拟精度提升
谷歌 Veo 3 …
2025 年视频生成领域呈现技术-场景-生态三角驱动格局,中国团队在中文场景和成本控制上表现突出。
国际前沿
OpenAI Sora
- 60 秒 1080P 视频生成
- DiT 架构解决时序一致性
- 物理模拟精度提升
谷歌 Veo 3 …
多模态视频编辑通过文本、图像、音频等多种输入控制视频生成与编辑,显著提升创作灵活性。
2025 年视频编辑方法
| 论文 | 发布时间 | 核心贡献 … |
|---|
GPU 与 CPU 架构的根本差异决定了其在 AI 并行计算中的核心地位,数千计算核心 + 专用加速单元实现了百倍于 CPU 的吞吐量。
GPU 与 CPU 架构差异
| 维度 … |
|---|
GPU 利用率反映计算核心在统计周期内的忙碌占比,核心工作状态时间除以总时间即为利用率百分比。
核心计算逻辑
$$\text{GPU 利用率} = \frac{\text{GPU 核心工作状态时间}}{\text{统计周期总时间}} …
GPU 利用率反映显卡计算资源的使用效率,理解其底层原理有助于优化深度学习训练。
核心问题
- [[显卡的利用率是如何计算的?]]
- 显卡底层计算原理与 PyTorch 的关系
- 加速计算的常用方法
GPU 加速策略 …
显存占用估算帮助规划硬件资源,核心公式:模型参数 + 梯度 + 优化器状态 + 激活值。
显存组成
| 组件 | FP32 训练 | FP16 训练 … |
|---|
CUDA Core 是通用计算单元,Tensor Core 是矩阵运算专用单元,二者协同支撑机器学习全流程计算。
CUDA Core vs CPU Core
| 维度 | CPU … |
|---|
AllReduce 是分布式训练梯度同步的核心操作,让所有节点获得相同的全局归约结果。
核心定义
AllReduce = All(所有节点)+ Reduce(归约)
本质:所有节点先做归约操作(求和/平均/最大值),再将结果广播给所有节 …
HDF5 是处理大规模科学数据的行业标准,提供分层结构、高效压缩和部分 I/O 能力。
核心优势
| 特性 | 说明 |
|---|---|
| 分层 … |
HuggingFace 提供模型和数据集的一站式下载,支持自动缓存、流式加载和多线程加速。
模型下载
自动下载(推荐)
| |
ONNX 是开放式神经网络交换格式,实现跨框架模型互操作。
参考链接
PyTorch、TensorFlow、JAX 等深度学习框架各有优劣,选型需结合实际场景。
参考链接
机器学习以数据、模型、优化三要素为核心,涵盖监督学习、无监督学习、强化学习等范式。
基本分类
| 类型 | 特点 | 典型方法 … |
|---|
张芷铭的个人博客