Deep-Learning
共 114 篇文章
人工智能领域的核心导航文件,涵盖机器学习、深度学习、大语言模型、计算机视觉等方向。
目录结构
| |
K-Means 是经典无监督聚类算法,通过迭代优化最小化簇内平方和,使同簇样本相似度高、异簇相似度低。
算法流程
- 初始化:选择 k 个初始聚类中心(可用 K-Means++)
- 分配:每个样本分配到最近的聚类中心
- 更新:重新计算每个簇的 …
KL 散度(Kullback-Leibler Divergence)衡量两个概率分布差异,是信息论和机器学习的核心概念。
数学定义
离散分布
$$D_{KL}(P \parallel Q) = \sum_{x \in …
KL 散度衡量两个概率分布差异,是信息论和机器学习的核心概念。
数学定义
离散分布: $$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$$
连续分布: …
KNN 是基于实例的监督学习算法,通过找最相似的 K 个样本进行预测,核心思想是"物以类聚"。
工作流程
- 计算距离:新样本与所有训练样本的距离
- 找 K 个最近邻:选出距离最小的 K 个
- 投票/平均:分类用多数投票, …
PCA 通过线性变换将高维数据投影到低维空间,在保留主要特征的同时降低计算复杂度。
数学原理
最大投影方差
投影后样本方差:$\omega^T \Sigma \omega$,其中 $\Sigma = \frac{1}{m} X X^T$ …
RBF 核(高斯核)通过核技巧隐式映射到无限维空间,是处理非线性问题的万能核函数。
数学定义
$$K(\mathbf{x_i}, \mathbf{x_j}) = \exp\left(-\gamma |\mathbf{x_i} - …
XGBoost 是极致优化的梯度提升框架,通过并行处理、正则化和近似算法显著提升性能。
核心特性
- 并行计算优化
- 正则化防止过拟合
- 高效处理缺失值
- 树剪枝与分位数优化
目标函数
$$\mathcal{L}(\phi) = …
支持向量机(SVM)是经典的监督学习算法,在小样本、非线性及高维模式识别中表现出色,广泛应用于分类和回归任务。
概述
支持向量机(Support Vector Machine, SVM)由 Vapnik 等人于 1992 年正式提出。 …
机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计,贝叶斯派通过 MAP 求解参数后验分布。
频率派 vs 贝叶斯派
| 方法 | 参数观点 … |
|---|
变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。
问题设定
推断核心是求解参数后验分布:
$$p(\hat{x}|X)=\int_\theta …
MCMC 通过构建马尔可夫链使其收敛到目标分布,包括拒绝采样、重要性采样、Metropolis-Hastings 和 Gibbs 采样。
采样方法对比
| 方法 | 思路 … |
|---|
隐马尔可夫模型(HMM)是离散状态空间模型,参数为 $(\pi,A,B)$。解决评估、学习和译码三个问题。
动态模型分类
| 模型 | 状态变量特点 … |
|---|
线性动态系统(LDS)处理连续隐变量的时序建模,卡尔曼滤波是其特例,通过预测-更新递推实现实时推断。
模型定义
LDS 又称卡尔曼滤波,适用于连续隐变量的 HMM。状态转移和观测方程:
$$ \begin{align} z_t …
粒子滤波解决非线性、非高斯状态空间模型的滤波问题,通过序列重要性采样(SIS)和重采样近似求解后验分布。
背景
Kalman 滤波对线性高斯模型可解析求解,但非线性、非高斯情况需采样方法。
重要性采样 …
条件随机场(CRF)是判别式无向图模型,解决 MEMM 的标签偏置问题。通过全局归一化建模条件概率 $p(Y|X)$。
背景对比
| 模型 | 类型 | 建模对象 … |
|---|
高斯网络是连续变量的概率图模型,分为有向(高斯贝叶斯网络)和无向(高斯马尔可夫网络)两种形式。
高斯分布基础
节点服从 $\mathcal{N}(\mu_i, \Sigma_i)$,联合分布为多元高斯。
独立性条件: …
贝叶斯线性回归通过引入参数先验,求解参数的后验分布而非点估计。高斯先验对应岭回归,拉普拉斯先验对应 Lasso。
模型假设
$$f(x)=w^Tx$$ $$y=f(x)+\varepsilon, \quad …
高斯过程是无限维的高斯分布,定义在连续域上。高斯过程回归可从权空间(核贝叶斯线性回归)和函数空间两个视角理解。
定义
高斯过程 ${\xi_t}{t\in T}$ 满足:任意有限点集 $\xi …
受限玻尔兹曼机(RBM)是无向图模型,假设隐变量和观测变量内部无连接,只存在层间连接。概率密度函数为指数族分布,推断可解析求解。
模型定义
将观测变量和隐变量记为 $v$ 和 $h$,无向图的玻尔兹曼分布: …
线性回归通过最小二乘法求解,闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘,正则化对应不同的先验假设。
模型假设
数据集 …
谱聚类是基于无向带权图的聚类方法,通过最小化归一化割(Ncut)将图分割为多个子图。适用于非凸数据集。
聚类思路对比
| 方法 | 思路 | 代表算法 … |
|---|
深度学习包括深度神经网络和深度生成网络。神经网络通过复合运算解决非线性问题,发展经历了从感知机到深度学习的技术演进。
机器学习流派
| 流派 | 方法 | 代表算法 … |
|---|
配分函数是概率分布的归一化因子,在最大似然估计中难以直接计算,需通过 MCMC 等采样方法近似求解。
配分函数定义
对于概率分布:
$$p(x|\theta)=\frac{1}{Z(\theta)}\hat{p}(x|\theta), …
近似推断将推断问题转化为优化问题,通过最大化 ELBO(证据下界)近似求解后验分布。主要用于深度生成模型中的隐变量推断。
推断目的
- 根据观测推断隐变量
- 为参数学习提供帮助
推断的困难
- 无向图:节点耦合强,因子分解困难
- 有向图:条件 …
线性分类分为硬分类(直接输出类别)和软分类(输出概率)。硬分类包括感知机和线性判别分析;软分类包括判别式(Logistic 回归)和生成式(GDA、朴素贝叶斯)。
分类方法对比
| 类型 … |
|---|
降维解决维度灾难和过拟合问题,分为特征选择、线性降维(PCA)和非线性降维(流形学习)。
维度灾难
$n$ 维球体积与超立方体比值:
$$\lim_{n\to\infty}\frac{CR^n}{2^nR^n}=0$$
高维数据主要分布 …
SVM 通过最大化间隔实现分类,支持硬间隔、软间隔和核方法三种策略。
问题分类与策略
| 数据特点 | SVM 方法 |
|---|---|
| 线性 … |
指数族分布是一类分布的统一形式,包括高斯、伯努利、泊松、Beta、Dirichlet、Gamma 等分布。具有共轭先验性质,满足最大熵原理。
统一形式 …
概率图模型用图表示概率分布,分为有向图(贝叶斯网络)和无向图(马尔可夫网络),涉及表示、推断和学习三个理论部分。
概率规则
$$p(x_1)=\int p(x_1,x_2)dx_2$$ …
EM 算法解决具有隐变量的混合模型参数估计,通过迭代最大化期望对数似然,每步似然单调递增。
问题设定
$$\theta_{MLE}=\mathop{argmax}_\theta\log p(x|\theta)$$
迭代公式: …
高斯混合模型通过多个高斯分布的加权平均拟合多峰数据,引入离散隐变量 $z$ 表示样本所属的高斯分布,通过 EM 算法求解参数。
模型定义 …
机器学习核心公式速查表,涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。
数学基础
MLE 与 MAP
$$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log …
K 折交叉验证将数据划分为 K 份,进行 K 次训练验证,取平均性能作为评估指标。
基本原理
将数据集随机划分为 K 份,每次取 1 份验证,K-1 份训练,循环 K 次后取均值。
示例(K=5):
| |
model.train() 和 model.eval() 控制模型状态,影响 BatchNorm 和 Dropout 层的行为。
核心区别
| 方法 | BatchNorm … |
|---|
迁移学习通过复用预训练特征,在数据稀缺任务中加速收敛并提升性能。
核心优势
| 优势 | 说明 |
|---|---|
| 加速收敛 … |
机器学习训练是"数据驱动下迭代优化参数、最小化损失"的过程,核心概念包括 Epoch、Step 和 Batch Size。
通用训练流程
| 步骤 | 内容 … |
|---|
Train、Eval、Test 三集划分确保模型训练、调参与最终评估的独立性。
三集职责
| 数据集 | 占比 | 作用 | 权重更新 … |
|---|
分类任务评估指标源于混淆矩阵,Precision、Recall、F1 适用于不同场景。
混淆矩阵
| 预测正类 | 预测负类 … |
|---|
LOOCV 是 K 折交叉验证的极端情况(K=N),适用于超小数据集,最大化数据利用率。
基本流程
将 N 个样本划分为 N 份,每次取 1 个验证,N-1 个训练,循环 N 次。
示例(N=5):
| |
FPN 通过横向连接融合深层语义与浅层几何信息,解决目标检测中的多尺度问题。
核心思想
特征金字塔网络(Feature Pyramid Network, FPN)构建具有横向连接的金字塔结构,实现高效的多尺度特征表示。
$$P_i = …
ResNet 通过残差连接解决深层网络的梯度消失和退化问题,使超深网络可训练。
核心思想
ResNet(Residual Network)由何恺明等人于 2015 年提出,通过跳跃连接(skip connection)实现残差学习。
残 …
Vision Transformer(ViT)将图像分割为 Patch 序列,通过自注意力机制实现全局建模,颠覆了 CNN 主导的视觉处理范式。
核心原理
工作流程
1. 图像分块与嵌入
输入图像($H \times W \times …
因果注意力通过掩码约束,确保序列建模中当前位置仅能关注历史信息,避免未来信息泄露。
核心概念
因果注意力确保位置 $t$ 的输出仅依赖 ${x_1, \dots, x_t}$,适用于自回归生成任务。
掩码机制
在注意力分数矩阵上加下三角 …
FlashAttention 通过分块计算和算子融合,将注意力内存复杂度从 $O(N^2)$ 降至 $O(N)$,实现 2-4 倍加速。
核心原理
内存层次优化
| 存储层级 | 容 … |
|---|
MAR 通过掩码机制控制信息流,实现复杂依赖关系建模。
两种 MAR 定义
| 类型 | 全称 | 应用领域 … |
|---|
Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题(exposure bias)。
研究问题
传统方法(Teacher Forcing、Diffusion Forcing)训练时依赖真实帧,推理时依赖生成帧,导致 …
简单投影层是无复杂非线性变换的线性映射层,是知识蒸馏的基础特征对齐工具。
定义
$$z = W \cdot h + b$$
| 参数 | 说明 … |
|---|
FID 和 FVD 是生成模型评估的核心指标,通过特征空间分布距离衡量生成图像和视频与真实数据的相似度。
Fréchet Inception Distance (FID)
基本概念
FID 用于评估 GAN 等生成模型性能,衡量真实数据 …
图像和视频质量评估指标分为全参考和无参考两类,LPIPS、SSIM、PSNR 是最常用的全参考指标。
全参考图像质量评估
基于像素差异
| 指标 | 公式 | 说明 … |
|---|
LPIPS(Learned Perceptual Image Patch Similarity)通过预训练神经网络提取特征计算感知相似度,比传统 PSNR/SSIM 更符合人类视觉感知。
定义与发展
LPIPS 来源于 CVPR …
变分自编码器(VAE)的理论基础,详见苏剑林博客系列。
学习资源
- 苏剑林《变分自编码器系列 …
扩散模型通过条件嵌入机制将外部信息融入去噪过程,主要方式包括交叉注意力、归一化参数动态调整、时间步联合嵌入等。
条件类型
文本条件
- CLIP 语义对齐:文本通过 CLIP 编码器生成语义向量,作为交叉注意力 Key/Value
- 交叉注 …
扩散模型损失函数以噪声预测 L2 损失(离散时间)和分数匹配损失(连续时间)为核心,其他损失多为其变体或扩展。
基础噪声预测损失
噪声预测 L2 损失(DDPM 核心)
$$\mathcal{L}{\text{simple}} = …
Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。
定义与发展历程
Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …
扩散模型学习路线分为四个阶段:基础入门 → 理论深化 → 进阶模型 → 应用实践,涵盖从 DDPM 到 Stable Diffusion 的完整知识体系。
学习路线总览
| 阶段 … |
|---|
Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。
定义与发展历程
Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …
Diffusion Transformers(DiT)融合 Transformer 架构与扩散模型,通过全局建模能力和卓越扩展性重塑图像与视频生成范式。
概述
DiT 是一种将 Transformer 架构与扩散模型相结合的生成式模型。 …
扩散模型与 Transformer 的融合通过全局建模能力和灵活条件注入显著提升生成质量与可控性。
结合机制
主干网络替换(DiT)
DiT(Diffusion Transformer)直接用 Transformer 替代传统 …
Diffusion 模型学习资源导航,涵盖综述、博客、论文和应用。
高质量综述
- What are Diffusion Models? — 英文入门介绍
- [[Diffusion Models A Comprehensive Survey …
扩散模型综述资源汇总,涵盖核心论文仓库与关键技术问题。
综述资源
核心问题
| 问题 … |
|---|
VAE 系列博客资源索引,包含变分自编码器的理论与实践。
推荐资源
该系列深入讲解 VAE 的数学原理、重参数化技巧、ELBO 推导等核心内容。
VAE(Variational Autoencoder)通过编码器-解码器架构学习数据潜在分布,结合概率图模型与深度学习实现生成能力。
定义与核心思想
VAE 是一种生成模型,核心思想是将高维数据映射到低维潜在空间,构建概率生成模型。与 …
扩散模型假设所有 $x_t$ 为高斯分布,本质是为数学可解性与训练稳定性牺牲严格性的折中方案。
扩散过程的高斯分布假设本质
前向扩散过程定义为马尔可夫链,每一步通过高斯噪声扰动:
$$q(x_t | x_{t-1}) = …
扩散模型噪声预测动态调整参数用于控制文本引导对生成结果的影响程度,常见于 Stable Diffusion 等条件生成模型。
核心参数
do_rescaling
开关参数,控制是否启用噪声预测的缩放调整功能。为 True 时执行缩放计算 …
Flow Matching 通过学习速度场实现噪声分布到数据分布的平滑转换,兼具高质量样本与快速采样优势。
核心概念
Flow Matching 是基于连续归一化流(CNF) 的生成模型训练框架。通过学习时间相关的向量场,将简单先验分布 …
Rectified Flow 通过直线路径优化实现高效去噪,仅需 20-50 步即可完成生成。
核心创新
传统扩散模型局限
- 计算复杂,需维护噪声系数表
- 步数多(通常 1000 步)
- 随机性控制困难
Rectified Flow 解决 …
Berkeley Function-Calling Leaderboard (BFCL)是首个全面评估LLM工具调用能力的榜单,涵盖多语言、多场景。
数据集特点
- 2K …
Python 的
ast模块将源代码解析为抽象语法树,支持静态分析、自动化重构和元编程。
核心功能
| 功能 | 函数/类 | 说明 … |
|---|
Function Call是大模型理解指令并调用预定义函数的能力,使其从文本生成工具进化为智能助手。
核心流程
| 步骤 | 说明 … |
|---|
DeepSpeed是微软开源的分布式训练优化框架,通过ZeRO技术实现千亿级模型训练,单卡显存占用降至传统方法的1/N。
核心价值
| 维度 | 说明 … |
|---|
MPI(Message Passing Interface)是跨节点分布式训练协议,通过消息传递实现设备间通信,适用于大规模集群环境。
MPI多机多卡训练原理
核心概念
| 概念 … |
|---|
RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。
核心定义
RLHF通过收集人类偏好数据(优劣排序、满意度评分 …
PyTorch分布式训练通过多设备并行计算加速模型训练,从基础
DataParallel到FSDP,覆盖不同规模的训练需求。
分布式训练类型
| 类型 | 说明 … |
|---|
Focal Loss 通过降低易分类样本权重,使模型专注于困难样本,解决类别不平衡问题。
公式
$$FL(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$$
参数:
- $p_t$:模型对正确类别的 …
图像分割评估指标分为区域重叠类(IoU、Dice)和边界精度类(Hausdorff、ASD)。
核心指标
| 指标 | 公式 | 范围 | 适用场景 … |
|---|
多模态检索 Embedding 模型将图像、文本映射到统一语义空间,实现跨模态检索。
主流模型对比
| 模型 | 维度 | 参数量 | 特点 … |
|---|
图像抠图(Image Matting)从图像中精确提取前景对象,处理半透明边界。
与图像分割的区别
| 特点 | 图像抠图 | 图像分割 … |
|---|
EfficientSAM 通过掩码图像预训练(SAMI)实现轻量级分割模型,在降低参数量的同时保持性能。
方法
SAMI 预训练:
- 基于 MAE,重建 SAM 图像编码器(ViT-H)的特征而非像素
- 使用轻量级 …
Grounded-SAM 结合 Grounding DINO 和 SAM,通过 RAM/Tag2Text 实现自动图像标注。
环境配置
| |
Grounded-SAM 结合 Grounding DINO 和 SAM 实现文本引导的自动分割,配合 RAM/Tag2Text 可全自动生成标签。
环境配置
| |
SAM 2 是面向图像和视频的可提示分割基础模型,采用基于记忆的流式架构。
核心创新
| 特性 | 说明 |
|---|---|
| 统一模型 … |
Segment Anything(SA)项目创建图像分割基础模型,包含可提示分割任务、SAM 模型和 SA-1B 数据集。
核心组件
| 组件 | 内容 … |
|---|
Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。
模型规格
| 变体 | 参数量 … |
|---|
YOLO-World 是开放词汇目标检测模型,支持通过文本提示检测任意类别。
核心特点
- 开放词汇:不限于预训练类别,可通过文本提示检测新物体
- 实时检测:保持 YOLO 系列的高速特性
- 视觉语言融合:结合 CLIP 等视觉语言模型
应 …
YOLO(You Only Look Once)是单阶段目标检测算法,将检测转化为回归问题,实现实时检测。
核心思想
- 单阶段框架:直接预测边界框和类别
- 网格划分:图像划分为 S×S 网格,每个网格预测 B 个框
- 端到端:一次前向传播完 …
CoTracker3 通过伪标签训练实现高效点追踪,用 1000 倍更少数据超越 SOTA。
核心创新
| 创新 | 说明 … |
|---|
I3D(Inflated 3D ConvNet)通过"膨胀"2D 卷积核到 3D,实现从图像到视频的知识迁移。
核心思想
2D 到 3D 膨胀:
$$W’{i,j,k,l,m} = \frac{W …
InternVideo2 通过三阶段渐进式训练框架,整合掩码视频建模、跨模态对比学习和下一 token 预测,在 70+ 视频任务上实现 SOTA。
核心方法
| 阶段 | 目标 … |
|---|
RAFT(Recurrent All-Pairs Field Transforms)是光流估计的 SOTA 方法,通过递归更新实现高精度。
核心思想
- 从每个像素提取特征
- 构建多尺度 4D 相关体积
- 递归单元迭代更新光流场
性能 …
TransNetV2 是视频镜头边界检测(SBD)的深度学习方案,准确率比传统方法提升 20%+。
核心优势
| 对比 | 传统方法 | TransNetV2 … |
|---|
TransNetV2 是视频场景边界检测(SBD)模型,通过双路径架构识别镜头切换和渐变效果,准确率 96.2%。
核心改进
| 版本 | 改进 | 准确率 … |
|---|
小波多尺度分析通过不同层级捕捉视频速度操作的痕迹,结合机器学习实现视频真伪鉴定。
分层等级含义
| 层级 | 捕捉内容 | 视频分析对应 … |
|---|
点追踪关注稀疏关键点轨迹,光流估计计算稠密像素运动场。
相同点
- 估计物体/点的运动轨迹
- 提取视觉特征建立帧间匹配
- 用于运动分析、目标跟踪、SLAM
核心差异
| 维度 | 点追踪 … |
|---|
query是用户问题,doc是候选答案,是检索和Reranker的基础概念。
核心概念
| 概念 | 说明 |
|---|---|
| query … |
Reranker 是排序模型,训练目标是让相关 doc 的分数 > 不相关 doc,核心围绕 (query, doc) 对的相关性打分展开。
基础训练数据单元
| 字段 | 含 … |
|---|
Reranker通过Cross-Encoder深度建模查询与文档的语义匹配,对初步召回结果精排,在RAG场景中提升检索准确性20%-50%。
核心定位
| 阶段 | 方法 … |
|---|
QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。
核心架构
| 模块 … |
|---|
LTX Video 开源推理命令行工具,支持文本和图像条件生成视频。
推理命令
| |
LTX-Video 的 VAE 实现 1:192 高压缩比,通过时空下采样和解码器双重任务优化视频生成效率。
VAE 核心设计
高压缩效率
- 压缩比:1:192(空间 32 倍 + 时间 8 倍)
- 效果:大幅减少 Transformer …
Wan 基于基础模型扩展 8 类下游任务,通过统一条件注入和适配器设计实现多任务复用。
图像到视频(I2V)
- 将输入图像作为第一帧
- 二进制掩码区分"保留帧"与"生成帧"
- 跨注意力注入 CLIP …
Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器,协同完成文本到视频生成。
整体流程
- 文本编码:umT5 将输入文本转换为语义嵌入向量
- Latent 映射 …
Wan 针对大规模视频生成的计算与内存瓶颈,设计了并行策略、内存优化、推理加速三大模块。
并行训练策略
采用 2D 上下文并行(CP)+ FSDP + DP 混合并行架构:
| 策略 … |
|---|
Phantom 数据管道构建文本-图像-视频三元组,通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。
五阶段流程
1. 数据采样与过滤
| 步骤 | 说明 … |
|---|
K 折交叉验证将数据分成 K 份,进行 K 次训练验证,充分利用数据提高评估稳定性。
基本步骤
- 将数据集随机拆分成 K 份
- 每次选择 1 份作为验证集,其余 K-1 份作为训练集
- 进行 K 次训练和验证
- 计算 K 次评估指标均值作为最 …
自回归模型(AR)利用历史数据预测未来值,是时间序列分析和 NLP 自回归生成的基础。
基本定义
$p$ 阶自回归模型 $AR(p)$:
$$y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + …
VACE 支持参考转视频、视频编辑、掩码编辑等多任务,数据构建需覆盖多模态输入。
数据构建核心目标
在保证视频质量前提下,通过实例级视频分析,构建覆盖文本、图像、视频、掩码、参考等模态的训练数据。
视频预处理流程 …
高频细节的"重建"与"生成"本质区别在于信息来源:前者依赖 latent 保留的原始信息,后者依赖模型习得的统计规律。
核心区别
| 概念 … |
|---|
!%%%%Pasted image 20250811100312.png%% TODO: 附件路径需要手动确认%% TODO: 附件路径需要手动确认
生成和重建高频信息的区别
在这段文字的语境中,“重建”(reconstruct)和“生成 …
机器学习知识体系导航,涵盖数学基础、常用模型和 PyTorch 框架。
入门
[[机器学习入门]]
数学基础
| 领域 | 核心内容 | 应用场景 … |
|---|
3D RoPE 将传统旋转位置编码从一维扩展到三维(时间+空间),为视频 Transformer 提供时空位置感知能力。
核心原理
维度分配策略
将注意力头维度拆分为三部分:
| |
RoPE 理论上具备无限外推潜力,但实际需结合插值优化才能扩展至训练长度的数十倍。
理论基础
旋转机制连续性
位置 $m$ 的旋转角度为 $m\theta_i$,其中 $\theta_i = 10000^{-2i/d}$:
- 旋转角度随 …
RoPE 通过旋转矩阵将位置信息编码到向量方向,使注意力分数天然包含相对位置信息。
核心公式
$$\langle \text{RoPE}(\mathbf{q}_m, m), \text{RoPE}(\mathbf{k}_n, n) …
KV Cache 通过缓存历史 K、V 矩阵,将 LLM 自回归推理复杂度从 $O(n^2)$ 降至 $O(n)$,是推理优化的核心技术。
核心原理
工作流程
| 阶段 | 操作 … |
|---|
张芷铭的个人博客