张芷铭的个人博客

Ai

共 114 篇文章

#ai #deep-learning #machine-learning

人工智能领域的核心导航文件,涵盖机器学习、深度学习、大语言模型、计算机视觉等方向。

目录结构

1
2
3
4
5
6
7
8
9
02 Artificial Intelligence/
├── 01 ML Foundation/ …

#ai #deep-learning #machine-learning

K-Means 是经典无监督聚类算法,通过迭代优化最小化簇内平方和,使同簇样本相似度高、异簇相似度低。

算法流程

  1. 初始化:选择 k 个初始聚类中心(可用 K-Means++)
  2. 分配:每个样本分配到最近的聚类中心
  3. 更新:重新计算每个簇的 …

#ai #deep-learning #machine-learning

KL 散度(Kullback-Leibler Divergence)衡量两个概率分布差异,是信息论和机器学习的核心概念。

数学定义

离散分布

$$D_{KL}(P \parallel Q) = \sum_{x \in …

#ai #deep-learning #machine-learning

KL 散度衡量两个概率分布差异,是信息论和机器学习的核心概念。

数学定义

离散分布: $$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$$

连续分布: …

#ai #deep-learning #machine-learning

KNN 是基于实例的监督学习算法,通过找最相似的 K 个样本进行预测,核心思想是"物以类聚"。

工作流程

  1. 计算距离:新样本与所有训练样本的距离
  2. 找 K 个最近邻:选出距离最小的 K 个
  3. 投票/平均:分类用多数投票, …

#ai #deep-learning #machine-learning

PCA 通过线性变换将高维数据投影到低维空间,在保留主要特征的同时降低计算复杂度。

数学原理

最大投影方差

投影后样本方差:$\omega^T \Sigma \omega$,其中 $\Sigma = \frac{1}{m} X X^T$ …

#ai #deep-learning #machine-learning

RBF 核(高斯核)通过核技巧隐式映射到无限维空间,是处理非线性问题的万能核函数。

数学定义

$$K(\mathbf{x_i}, \mathbf{x_j}) = \exp\left(-\gamma |\mathbf{x_i} - …

#ai #deep-learning #machine-learning

XGBoost 是极致优化的梯度提升框架,通过并行处理、正则化和近似算法显著提升性能。

核心特性

  • 并行计算优化
  • 正则化防止过拟合
  • 高效处理缺失值
  • 树剪枝与分位数优化

目标函数

$$\mathcal{L}(\phi) = …

#ai #deep-learning #machine-learning

支持向量机(SVM)是经典的监督学习算法,在小样本、非线性及高维模式识别中表现出色,广泛应用于分类和回归任务。

概述

支持向量机(Support Vector Machine, SVM)由 Vapnik 等人于 1992 年正式提出。 …

#ai #deep-learning #machine-learning

机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计,贝叶斯派通过 MAP 求解参数后验分布。

频率派 vs 贝叶斯派

方法参数观点 …

#ai #deep-learning #machine-learning

变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。

问题设定

推断核心是求解参数后验分布:

$$p(\hat{x}|X)=\int_\theta …

#ai #deep-learning #machine-learning

MCMC 通过构建马尔可夫链使其收敛到目标分布,包括拒绝采样、重要性采样、Metropolis-Hastings 和 Gibbs 采样。

采样方法对比

方法思路 …

#ai #deep-learning #machine-learning

隐马尔可夫模型(HMM)是离散状态空间模型,参数为 $(\pi,A,B)$。解决评估、学习和译码三个问题。

动态模型分类

模型状态变量特点 …

#ai #deep-learning #machine-learning

线性动态系统(LDS)处理连续隐变量的时序建模,卡尔曼滤波是其特例,通过预测-更新递推实现实时推断。

模型定义

LDS 又称卡尔曼滤波,适用于连续隐变量的 HMM。状态转移和观测方程:

$$ \begin{align} z_t …

#ai #deep-learning #machine-learning

粒子滤波解决非线性、非高斯状态空间模型的滤波问题,通过序列重要性采样(SIS)和重采样近似求解后验分布。

背景

Kalman 滤波对线性高斯模型可解析求解,但非线性、非高斯情况需采样方法。

重要性采样 …

#ai #deep-learning #machine-learning

条件随机场(CRF)是判别式无向图模型,解决 MEMM 的标签偏置问题。通过全局归一化建模条件概率 $p(Y|X)$。

背景对比

模型类型建模对象 …

#ai #deep-learning #machine-learning

高斯网络是连续变量的概率图模型,分为有向(高斯贝叶斯网络)和无向(高斯马尔可夫网络)两种形式。

高斯分布基础

节点服从 $\mathcal{N}(\mu_i, \Sigma_i)$,联合分布为多元高斯。

独立性条件: …

#ai #deep-learning #machine-learning

贝叶斯线性回归通过引入参数先验,求解参数的后验分布而非点估计。高斯先验对应岭回归,拉普拉斯先验对应 Lasso。

模型假设

$$f(x)=w^Tx$$ $$y=f(x)+\varepsilon, \quad …

#ai #deep-learning #machine-learning

高斯过程是无限维的高斯分布,定义在连续域上。高斯过程回归可从权空间(核贝叶斯线性回归)和函数空间两个视角理解。

定义

高斯过程 ${\xi_t}{t\in T}$ 满足:任意有限点集 $\xi …

#ai #deep-learning #machine-learning

受限玻尔兹曼机(RBM)是无向图模型,假设隐变量和观测变量内部无连接,只存在层间连接。概率密度函数为指数族分布,推断可解析求解。

模型定义

将观测变量和隐变量记为 $v$ 和 $h$,无向图的玻尔兹曼分布: …

#ai #deep-learning #machine-learning

线性回归通过最小二乘法求解,闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘,正则化对应不同的先验假设。

模型假设

数据集 …

#ai #deep-learning #machine-learning

谱聚类是基于无向带权图的聚类方法,通过最小化归一化割(Ncut)将图分割为多个子图。适用于非凸数据集。

聚类思路对比

方法思路代表算法 …

#ai #deep-learning #machine-learning

深度学习包括深度神经网络和深度生成网络。神经网络通过复合运算解决非线性问题,发展经历了从感知机到深度学习的技术演进。

机器学习流派

流派方法代表算法 …

#ai #deep-learning #machine-learning

配分函数是概率分布的归一化因子,在最大似然估计中难以直接计算,需通过 MCMC 等采样方法近似求解。

配分函数定义

对于概率分布:

$$p(x|\theta)=\frac{1}{Z(\theta)}\hat{p}(x|\theta), …

#ai #deep-learning #machine-learning

近似推断将推断问题转化为优化问题,通过最大化 ELBO(证据下界)近似求解后验分布。主要用于深度生成模型中的隐变量推断。

推断目的

  1. 根据观测推断隐变量
  2. 为参数学习提供帮助

推断的困难

  • 无向图:节点耦合强,因子分解困难
  • 有向图:条件 …

#ai #deep-learning #machine-learning

线性分类分为硬分类(直接输出类别)和软分类(输出概率)。硬分类包括感知机和线性判别分析;软分类包括判别式(Logistic 回归)和生成式(GDA、朴素贝叶斯)。

分类方法对比

类型 …

#ai #deep-learning #machine-learning

降维解决维度灾难和过拟合问题,分为特征选择、线性降维(PCA)和非线性降维(流形学习)。

维度灾难

$n$ 维球体积与超立方体比值:

$$\lim_{n\to\infty}\frac{CR^n}{2^nR^n}=0$$

高维数据主要分布 …

#ai #deep-learning #machine-learning

SVM 通过最大化间隔实现分类,支持硬间隔、软间隔和核方法三种策略。

问题分类与策略

数据特点SVM 方法
线性 …

#ai #deep-learning #machine-learning

指数族分布是一类分布的统一形式,包括高斯、伯努利、泊松、Beta、Dirichlet、Gamma 等分布。具有共轭先验性质,满足最大熵原理。

统一形式 …

#ai #deep-learning #machine-learning

概率图模型用图表示概率分布,分为有向图(贝叶斯网络)和无向图(马尔可夫网络),涉及表示、推断和学习三个理论部分。

概率规则

$$p(x_1)=\int p(x_1,x_2)dx_2$$ …

#ai #deep-learning #machine-learning

EM 算法解决具有隐变量的混合模型参数估计,通过迭代最大化期望对数似然,每步似然单调递增。

问题设定

$$\theta_{MLE}=\mathop{argmax}_\theta\log p(x|\theta)$$

迭代公式: …

#ai #deep-learning #machine-learning

高斯混合模型通过多个高斯分布的加权平均拟合多峰数据,引入离散隐变量 $z$ 表示样本所属的高斯分布,通过 EM 算法求解参数。

模型定义 …

#ai #deep-learning #machine-learning

机器学习核心公式速查表,涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。

数学基础

MLE 与 MAP

$$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log …

#ai #deep-learning #machine-learning

K 折交叉验证将数据划分为 K 份,进行 K 次训练验证,取平均性能作为评估指标。

基本原理

将数据集随机划分为 K 份,每次取 1 份验证,K-1 份训练,循环 K 次后取均值。

示例(K=5)

1
2
3
4
数据集: …

#ai #deep-learning #machine-learning

model.train() 和 model.eval() 控制模型状态,影响 BatchNorm 和 Dropout 层的行为。

核心区别

方法BatchNorm …

#ai #deep-learning #machine-learning

迁移学习通过复用预训练特征,在数据稀缺任务中加速收敛并提升性能。

核心优势

优势说明
加速收敛 …

#ai #deep-learning #machine-learning

机器学习训练是"数据驱动下迭代优化参数、最小化损失"的过程,核心概念包括 Epoch、Step 和 Batch Size。

通用训练流程

步骤内容 …

#ai #deep-learning #machine-learning

Train、Eval、Test 三集划分确保模型训练、调参与最终评估的独立性。

三集职责

数据集占比作用权重更新 …

#ai #deep-learning #machine-learning

分类任务评估指标源于混淆矩阵,Precision、Recall、F1 适用于不同场景。

混淆矩阵

预测正类预测负类 …

#ai #deep-learning #machine-learning

LOOCV 是 K 折交叉验证的极端情况(K=N),适用于超小数据集,最大化数据利用率。

基本流程

将 N 个样本划分为 N 份,每次取 1 个验证,N-1 个训练,循环 N 次。

示例(N=5)

1
2
3
4
数据集: …

#ai #deep-learning #machine-learning

FPN 通过横向连接融合深层语义与浅层几何信息,解决目标检测中的多尺度问题。

核心思想

特征金字塔网络(Feature Pyramid Network, FPN)构建具有横向连接的金字塔结构,实现高效的多尺度特征表示。

$$P_i = …

#ai #deep-learning #machine-learning

ResNet 通过残差连接解决深层网络的梯度消失和退化问题,使超深网络可训练。

核心思想

ResNet(Residual Network)由何恺明等人于 2015 年提出,通过跳跃连接(skip connection)实现残差学习

残 …

#transformer #ai #deep-learning

Vision Transformer(ViT)将图像分割为 Patch 序列,通过自注意力机制实现全局建模,颠覆了 CNN 主导的视觉处理范式。

核心原理

工作流程

1. 图像分块与嵌入

输入图像($H \times W \times …

#ai #deep-learning #machine-learning

因果注意力通过掩码约束,确保序列建模中当前位置仅能关注历史信息,避免未来信息泄露。

核心概念

因果注意力确保位置 $t$ 的输出仅依赖 ${x_1, \dots, x_t}$,适用于自回归生成任务。

掩码机制

在注意力分数矩阵上加下三角 …

#ai #deep-learning #machine-learning

FlashAttention 通过分块计算和算子融合,将注意力内存复杂度从 $O(N^2)$ 降至 $O(N)$,实现 2-4 倍加速。

核心原理

内存层次优化

存储层级容 …

#ai #deep-learning #machine-learning

MAR 通过掩码机制控制信息流,实现复杂依赖关系建模。

两种 MAR 定义

类型全称应用领域 …

#ai #deep-learning #machine-learning

Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题(exposure bias)。

研究问题

传统方法(Teacher Forcing、Diffusion Forcing)训练时依赖真实帧,推理时依赖生成帧,导致 …

#ai #deep-learning #machine-learning

简单投影层是无复杂非线性变换的线性映射层,是知识蒸馏的基础特征对齐工具。

定义

$$z = W \cdot h + b$$

参数说明 …

#ai #deep-learning #machine-learning

FID 和 FVD 是生成模型评估的核心指标,通过特征空间分布距离衡量生成图像和视频与真实数据的相似度。

Fréchet Inception Distance (FID)

基本概念

FID 用于评估 GAN 等生成模型性能,衡量真实数据 …

#ai #deep-learning #machine-learning

图像和视频质量评估指标分为全参考和无参考两类,LPIPS、SSIM、PSNR 是最常用的全参考指标。

全参考图像质量评估

基于像素差异

指标公式说明 …

#ai #deep-learning #machine-learning

LPIPS(Learned Perceptual Image Patch Similarity)通过预训练神经网络提取特征计算感知相似度,比传统 PSNR/SSIM 更符合人类视觉感知。

定义与发展

LPIPS 来源于 CVPR …

#ai #deep-learning #diffusion

变分自编码器(VAE)的理论基础,详见苏剑林博客系列。

学习资源

  • 苏剑林《变分自编码器系列 …

#ai #deep-learning #diffusion

扩散模型通过条件嵌入机制将外部信息融入去噪过程,主要方式包括交叉注意力、归一化参数动态调整、时间步联合嵌入等。

条件类型

文本条件

  • CLIP 语义对齐:文本通过 CLIP 编码器生成语义向量,作为交叉注意力 Key/Value
  • 交叉注 …

#ai #deep-learning #diffusion

扩散模型损失函数以噪声预测 L2 损失(离散时间)和分数匹配损失(连续时间)为核心,其他损失多为其变体或扩展。

基础噪声预测损失

噪声预测 L2 损失(DDPM 核心)

$$\mathcal{L}{\text{simple}} = …

#ai #deep-learning #diffusion

Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。

定义与发展历程

Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …

#ai #deep-learning #diffusion

扩散模型学习路线分为四个阶段:基础入门 → 理论深化 → 进阶模型 → 应用实践,涵盖从 DDPM 到 Stable Diffusion 的完整知识体系。

学习路线总览

阶段 …

#ai #deep-learning #diffusion

Diffusion Model 基于马尔可夫链实现逐步加噪与去噪,已成为生成式 AI 的核心引擎。

定义与发展历程

Diffusion Model 是一类基于马尔可夫链的生成式模型,通过逐步添加噪声破坏数据分布,再学习逆向去噪过程重建数 …

#machine-learning #transformer #ai

Diffusion Transformers(DiT)融合 Transformer 架构与扩散模型,通过全局建模能力和卓越扩展性重塑图像与视频生成范式。

概述

DiT 是一种将 Transformer 架构与扩散模型相结合的生成式模型。 …

#machine-learning #transformer #ai

扩散模型与 Transformer 的融合通过全局建模能力和灵活条件注入显著提升生成质量与可控性。

结合机制

主干网络替换(DiT)

DiT(Diffusion Transformer)直接用 Transformer 替代传统 …

#ai #deep-learning #diffusion

Diffusion 模型学习资源导航,涵盖综述、博客、论文和应用。

高质量综述

#ai #deep-learning #diffusion

扩散模型综述资源汇总,涵盖核心论文仓库与关键技术问题。

综述资源

核心问题

问题 …

#ai #deep-learning #machine-learning

VAE 系列博客资源索引,包含变分自编码器的理论与实践。

推荐资源

苏剑林博客:变分自编码器系列

该系列深入讲解 VAE 的数学原理、重参数化技巧、ELBO 推导等核心内容。

#ai #deep-learning #machine-learning

VAE(Variational Autoencoder)通过编码器-解码器架构学习数据潜在分布,结合概率图模型与深度学习实现生成能力。

定义与核心思想

VAE 是一种生成模型,核心思想是将高维数据映射到低维潜在空间,构建概率生成模型。与 …

#ai #deep-learning #machine-learning

扩散模型假设所有 $x_t$ 为高斯分布,本质是为数学可解性与训练稳定性牺牲严格性的折中方案。

扩散过程的高斯分布假设本质

前向扩散过程定义为马尔可夫链,每一步通过高斯噪声扰动:

$$q(x_t | x_{t-1}) = …

#ai #deep-learning #machine-learning

扩散模型噪声预测动态调整参数用于控制文本引导对生成结果的影响程度,常见于 Stable Diffusion 等条件生成模型。

核心参数

do_rescaling

开关参数,控制是否启用噪声预测的缩放调整功能。为 True 时执行缩放计算 …

#ai #deep-learning #machine-learning

Flow Matching 通过学习速度场实现噪声分布到数据分布的平滑转换,兼具高质量样本与快速采样优势。

核心概念

Flow Matching 是基于连续归一化流(CNF) 的生成模型训练框架。通过学习时间相关的向量场,将简单先验分布 …

#ai #deep-learning #machine-learning

Rectified Flow 通过直线路径优化实现高效去噪,仅需 20-50 步即可完成生成。

核心创新

传统扩散模型局限

  • 计算复杂,需维护噪声系数表
  • 步数多(通常 1000 步)
  • 随机性控制困难

Rectified Flow 解决 …

#ai #deep-learning #machine-learning

Berkeley Function-Calling Leaderboard (BFCL)是首个全面评估LLM工具调用能力的榜单,涵盖多语言、多场景。

Live Leaderboard | Dataset

数据集特点

  • 2K …

#ai #deep-learning #machine-learning

Python 的 ast 模块将源代码解析为抽象语法树,支持静态分析、自动化重构和元编程。

核心功能

功能函数/类说明 …

#ai #deep-learning #machine-learning

Function Call是大模型理解指令并调用预定义函数的能力,使其从文本生成工具进化为智能助手。

核心流程

步骤说明 …

#ai #deep-learning #machine-learning

DeepSpeed是微软开源的分布式训练优化框架,通过ZeRO技术实现千亿级模型训练,单卡显存占用降至传统方法的1/N。

核心价值

维度说明 …

#ai #deep-learning #machine-learning

MPI(Message Passing Interface)是跨节点分布式训练协议,通过消息传递实现设备间通信,适用于大规模集群环境。

MPI多机多卡训练原理

核心概念

概念 …

#ai #deep-learning #machine-learning

RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。

核心定义

RLHF通过收集人类偏好数据(优劣排序、满意度评分 …

#ai #deep-learning #machine-learning

PyTorch分布式训练通过多设备并行计算加速模型训练,从基础DataParallelFSDP,覆盖不同规模的训练需求。

分布式训练类型

类型说明 …

#ai #deep-learning #machine-learning

Focal Loss 通过降低易分类样本权重,使模型专注于困难样本,解决类别不平衡问题。

公式

$$FL(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$$

参数

  • $p_t$:模型对正确类别的 …

#ai #deep-learning #machine-learning

图像分割评估指标分为区域重叠类(IoU、Dice)和边界精度类(Hausdorff、ASD)。

核心指标

指标公式范围适用场景 …

#ai #deep-learning #machine-learning

多模态检索 Embedding 模型将图像、文本映射到统一语义空间,实现跨模态检索。

主流模型对比

模型维度参数量特点 …

#ai #deep-learning #machine-learning

图像抠图(Image Matting)从图像中精确提取前景对象,处理半透明边界。

与图像分割的区别

特点图像抠图图像分割 …

#ai #deep-learning #machine-learning

EfficientSAM 通过掩码图像预训练(SAMI)实现轻量级分割模型,在降低参数量的同时保持性能。

方法

SAMI 预训练

  • 基于 MAE,重建 SAM 图像编码器(ViT-H)的特征而非像素
  • 使用轻量级 …

#ai #deep-learning #machine-learning

Grounded-SAM 结合 Grounding DINO 和 SAM,通过 RAM/Tag2Text 实现自动图像标注。

环境配置

1
2
3
export AM_I_DOCKER=False
export …

#ai #deep-learning #machine-learning

Grounded-SAM 结合 Grounding DINO 和 SAM 实现文本引导的自动分割,配合 RAM/Tag2Text 可全自动生成标签。

环境配置

1
2
3
export AM_I_DOCKER=False …

#ai #deep-learning #machine-learning

SAM 2 是面向图像和视频的可提示分割基础模型,采用基于记忆的流式架构。

核心创新

特性说明
统一模型 …

#ai #deep-learning #machine-learning

Segment Anything(SA)项目创建图像分割基础模型,包含可提示分割任务、SAM 模型和 SA-1B 数据集。

核心组件

组件内容 …

#transformer #ai #deep-learning

Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。

模型规格

变体参数量 …

#ai #deep-learning #machine-learning

YOLO-World 是开放词汇目标检测模型,支持通过文本提示检测任意类别。

核心特点

  • 开放词汇:不限于预训练类别,可通过文本提示检测新物体
  • 实时检测:保持 YOLO 系列的高速特性
  • 视觉语言融合:结合 CLIP 等视觉语言模型

应 …

#ai #deep-learning #machine-learning

YOLO(You Only Look Once)是单阶段目标检测算法,将检测转化为回归问题,实现实时检测。

核心思想

  • 单阶段框架:直接预测边界框和类别
  • 网格划分:图像划分为 S×S 网格,每个网格预测 B 个框
  • 端到端:一次前向传播完 …

#ai #deep-learning #machine-learning

CoTracker3 通过伪标签训练实现高效点追踪,用 1000 倍更少数据超越 SOTA。

核心创新

创新说明 …

#ai #deep-learning #machine-learning

I3D(Inflated 3D ConvNet)通过"膨胀"2D 卷积核到 3D,实现从图像到视频的知识迁移。

核心思想

2D 到 3D 膨胀

$$W’{i,j,k,l,m} = \frac{W …

#ai #deep-learning #machine-learning

InternVideo2 通过三阶段渐进式训练框架,整合掩码视频建模、跨模态对比学习和下一 token 预测,在 70+ 视频任务上实现 SOTA。

核心方法

阶段目标 …

#ai #deep-learning #machine-learning

RAFT(Recurrent All-Pairs Field Transforms)是光流估计的 SOTA 方法,通过递归更新实现高精度。

核心思想

  1. 从每个像素提取特征
  2. 构建多尺度 4D 相关体积
  3. 递归单元迭代更新光流场

性能 …

#ai #deep-learning #machine-learning

TransNetV2 是视频镜头边界检测(SBD)的深度学习方案,准确率比传统方法提升 20%+。

核心优势

对比传统方法TransNetV2 …

#ai #deep-learning #machine-learning

TransNetV2 是视频场景边界检测(SBD)模型,通过双路径架构识别镜头切换和渐变效果,准确率 96.2%。

核心改进

版本改进准确率 …

#ai #deep-learning #machine-learning

小波多尺度分析通过不同层级捕捉视频速度操作的痕迹,结合机器学习实现视频真伪鉴定。

分层等级含义

层级捕捉内容视频分析对应 …

#ai #deep-learning #machine-learning

点追踪关注稀疏关键点轨迹,光流估计计算稠密像素运动场。

相同点

  • 估计物体/点的运动轨迹
  • 提取视觉特征建立帧间匹配
  • 用于运动分析、目标跟踪、SLAM

核心差异

维度点追踪 …

#ai #deep-learning #machine-learning

query是用户问题,doc是候选答案,是检索和Reranker的基础概念。

核心概念

概念说明
query …

#ai #deep-learning #machine-learning

Reranker 是排序模型,训练目标是让相关 doc 的分数 > 不相关 doc,核心围绕 (query, doc) 对的相关性打分展开。

基础训练数据单元

字段含 …

#ai #deep-learning #machine-learning

Reranker通过Cross-Encoder深度建模查询与文档的语义匹配,对初步召回结果精排,在RAG场景中提升检索准确性20%-50%。

核心定位

阶段方法 …

#transformer #ai #deep-learning

QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。

BLIP-2论文

核心架构

模块 …

#ai #deep-learning #machine-learning

LTX Video 开源推理命令行工具,支持文本和图像条件生成视频。

推理命令

1
2
3
4
5
6
7
8
9
python inference.py \
  --prompt "PROMPT" \ …

#ai #deep-learning #machine-learning

LTX-Video 的 VAE 实现 1:192 高压缩比,通过时空下采样和解码器双重任务优化视频生成效率。

VAE 核心设计

高压缩效率

  • 压缩比:1:192(空间 32 倍 + 时间 8 倍)
  • 效果:大幅减少 Transformer …

#ai #deep-learning #machine-learning

Wan 基于基础模型扩展 8 类下游任务,通过统一条件注入和适配器设计实现多任务复用。

图像到视频(I2V)

  • 将输入图像作为第一帧
  • 二进制掩码区分"保留帧"与"生成帧"
  • 跨注意力注入 CLIP …

#ai #deep-learning #machine-learning

Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器,协同完成文本到视频生成。

整体流程

  1. 文本编码:umT5 将输入文本转换为语义嵌入向量
  2. Latent 映射 …

#ai #deep-learning #machine-learning

Wan 针对大规模视频生成的计算与内存瓶颈,设计了并行策略、内存优化、推理加速三大模块。

并行训练策略

采用 2D 上下文并行(CP)+ FSDP + DP 混合并行架构:

策略 …

#ai #deep-learning #machine-learning

Phantom 数据管道构建文本-图像-视频三元组,通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。

五阶段流程

1. 数据采样与过滤

步骤说明 …

#ai #deep-learning #machine-learning

K 折交叉验证将数据分成 K 份,进行 K 次训练验证,充分利用数据提高评估稳定性。

基本步骤

  1. 将数据集随机拆分成 K 份
  2. 每次选择 1 份作为验证集,其余 K-1 份作为训练集
  3. 进行 K 次训练和验证
  4. 计算 K 次评估指标均值作为最 …

#ai #deep-learning #machine-learning

自回归模型(AR)利用历史数据预测未来值,是时间序列分析和 NLP 自回归生成的基础。

基本定义

$p$ 阶自回归模型 $AR(p)$:

$$y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + …

#ai #deep-learning #machine-learning

VACE 支持参考转视频、视频编辑、掩码编辑等多任务,数据构建需覆盖多模态输入。

数据构建核心目标

在保证视频质量前提下,通过实例级视频分析,构建覆盖文本、图像、视频、掩码、参考等模态的训练数据。

视频预处理流程 …

#ai #deep-learning #machine-learning

高频细节的"重建"与"生成"本质区别在于信息来源:前者依赖 latent 保留的原始信息,后者依赖模型习得的统计规律。

核心区别

概念 …

#ai #deep-learning #machine-learning

!%%%%Pasted image 20250811100312.png%% TODO: 附件路径需要手动确认%% TODO: 附件路径需要手动确认

生成和重建高频信息的区别

在这段文字的语境中,“重建”(reconstruct)和“生成 …

#ai #deep-learning #machine-learning

机器学习知识体系导航,涵盖数学基础、常用模型和 PyTorch 框架。

入门

[[机器学习入门]]

数学基础

领域核心内容应用场景 …

#ai #deep-learning #machine-learning

3D RoPE 将传统旋转位置编码从一维扩展到三维(时间+空间),为视频 Transformer 提供时空位置感知能力。

核心原理

维度分配策略

将注意力头维度拆分为三部分:

1
2
3
dim_t = …

#ai #deep-learning #machine-learning

RoPE 理论上具备无限外推潜力,但实际需结合插值优化才能扩展至训练长度的数十倍。

理论基础

旋转机制连续性

位置 $m$ 的旋转角度为 $m\theta_i$,其中 $\theta_i = 10000^{-2i/d}$:

  • 旋转角度随 …

#ai #deep-learning #machine-learning

RoPE 通过旋转矩阵将位置信息编码到向量方向,使注意力分数天然包含相对位置信息。

核心公式

$$\langle \text{RoPE}(\mathbf{q}_m, m), \text{RoPE}(\mathbf{k}_n, n) …

#ai #deep-learning #machine-learning

KV Cache 通过缓存历史 K、V 矩阵,将 LLM 自回归推理复杂度从 $O(n^2)$ 降至 $O(n)$,是推理优化的核心技术。

核心原理

工作流程

阶段操作 …