02 Artificial Intelligences

共 250 篇文章

SGLang

2025-12-15

SGLang 是什么？

SGLang（Structured Generation Language）是一款专为大语言模型（LLM）结构化生成设计的编程语言/框架，核心目标是解决LLM生成过程中“可控性差、效率低、复杂任务编排难”的问题。它由 …

GPU

2025-12-14

作为刚接触 GPU 计算的新手，理解 GPU 在 AI 场景下的计算原理确实需要从基础架构到实际应用逐步深入。GPU 已经成为现代 AI 计算的核心驱动力，从 ChatGPT 到各种深度学习模型，GPU 的大规模并行计算能力为 AI 的爆发 …

SM 流式处理器

2025-12-14

流式多处理器（SM）：GPU的核心计算单元

流式多处理器（Streaming Multiprocessor，SM）是NVIDIA GPU架构中最核心的并行计算单元，也是GPU实现大规模并行计算的基础——所有CUDA核心（CUDA …

余弦相似度

2025-12-14

这个问题既兼顾基础算法原理，又聚焦实际应用场景，特别有价值！向量余弦相似度是衡量高维向量方向一致性的核心算法，取值范围为[-1,1]，在深度学习中是特征匹配、语义关联的关键工具。

一、算法核心解析

1. 核心定义

向量余弦相似度通过计算两个 …

余弦相似度代码

2025-12-14

[[余弦相似度]]

以下是 向量余弦相似度的完整代码实现，包含「基础原理验证」「深度学习框架适配」「文本检索」「对比学习损失」4个核心场景，所有代码可直接运行，附详细注释：

一、环境依赖安装

先安装必要的库（适配Python 3.8+）： …

显卡的利用率是如何计算的？

2025-12-14

显卡利用率（通常指 GPU 利用率）的计算核心是统计 GPU 核心在单位时间内的忙碌占比，反映显卡的计算资源被实际使用的程度。不同工具（如 NVIDIA-smi、AMD Adrenalin、任务管理器）的计算逻辑一致，具体原理和细节如下： …

显卡相关

2025-12-14

[[显卡的利用率是如何计算的？]] 显卡底层计算原理？和Pytorch的一般关系？一般有什么办法加速计算？

简介

2025-10-31

简介

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉和机器学习软件库。它由Gary Bradski于1999年发起，旨在为计算机视觉应用提供基础算法，帮助开发者快速开发各种视觉功 …

3D RoPE的核心原理

2025-10-29

这段代码实现了三维旋转位置编码（3D RoPE），专为视频Transformer设计，通过旋转变换将时空位置信息融入注意力机制。其核心原理是将传统RoPE从一维序列扩展到三维（时间+空间），以下是逐层解析：

1. 位置编码的本质

目标： …

4.1. Data Construction（数据构建）部分详细总结

2025-10-29

4.1. Data Construction（数据构建）部分详细总结

一、数据构建核心目标

由于VACE需支持参考转视频、视频编辑、掩码编辑等多任务，其数据需求远超传统文本-视频或图像-视频任务（仅需文本-视频配对数据）。因此，4.1节的核 …

DeepSpeed优化器：千亿级模型训练的革命性解决方案

2025-10-29

DeepSpeed概述与核心价值

DeepSpeed是微软开源的深度学习分布式训练优化框架，专为解决超大规模模型（如GPT-3、Turing-NLG等）训练中的显存瓶颈和计算效率问题而设计。在传统数据并行方式下，单卡需保存完整的模型参数、梯 …

Diffusion和Transformer结合

2025-10-29

扩散模型与Transformer的结合主要通过两种方式实现：完全替换主干网络或在原有架构中引入Transformer模块。以下从结合机制、训练流程、推理优化三个方面展开详细说明：

一、结合机制：Transformer如何融入扩散模型

1. …

Grounding SAM使用方法

2025-10-29

Install without Docker

You should set the environment variable manually as follows if you want to build a local GPU …

Pytorch 字符串表达式

2025-10-29

在 PyTorch 中，可以通过字符串表达式（string expressions）来动态定义张量运算规则，这种方式在 torch.einsum()、torch.compile() 的 dynamic 选项等场景中特别有用。以下是详细总结： …

PyTorch广播机制深度解析：从原理到高效实践

2025-10-29

PyTorch广播机制深度解析：从原理到高效实践

广播机制定义与核心规则

广播（Broadcasting）是PyTorch中一种智能维度扩展机制，允许不同形状的张量进行逐元素运算（如加减乘除），无需显式复制数据。其核心思想是通过自动对齐维度 …

VAE

2025-10-29

VAE

![[Pasted image 20250812162001.png]]

LTX-Video的VAE并非传统设计，而是为高效视频生成做了针对性优化，核心目标是在高压缩率下保持视频质量和生成速度，具体设计包括：

1. 极高的压缩效率 …

Wan下游任务

2025-10-29

下游任务扩展架构 Wan基于基础模型扩展了8类下游任务，通过统一条件注入、适配器（Adapter） 等设计，实现多任务复用与高效适配。

4.1 图像到视频（I2V）生成

核心设计：将输入图像作为第一帧，与零填充帧拼接后经Wan-VAE压缩 …

Wan训练和推理优化

2025-10-29

训练与推理优化模块 Wan针对大规模视频生成的计算与内存瓶颈，设计了并行策略、内存优化、推理加速三大模块，支撑14B参数模型的训练与部署。

3.1 并行训练策略

针对DiT模块的高计算需求，采用“2D上下文并行（CP）+全分片数据并行 …

YOLO模型检测

2025-10-29

YOLO（You Only Look Once）是一种流行的实时目标检测算法，它将目标检测任务视为一个单一的回归问题，通过一个神经网络直接从完整图像预测边界框（Bounding Box）和类别概率，实现了高效且准确的检测。下面我将从核心思想 …

原始Transformer模型中的计算细节

2025-10-29

在Transformer模型中，输入的流动过程可分为编码器输入处理→编码器堆叠计算→解码器输入处理→解码器堆叠计算→输出预测五个核心阶段，每个阶段涉及具体的矩阵操作和维度变换，细节如下：

一、编码器输入处理：嵌入（Embedding）与位置 …

学习感知图像块相似度 (LPIPS)：迈向人类视觉感知的图像质量评估

2025-10-29

在计算机视觉和图像处理领域，如何准确评估图像质量、衡量图像之间的相似度是一个核心问题。传统指标如PSNR（峰值信噪比）和SSIM（结构相似性指数）虽被广泛使用，但它们往往与人类主观感知存在显著差距。LPIPS (Learned …

扩散模型中的高斯假设合理性回答

2025-10-29

用户的问题触及了扩散模型理论中的一个关键矛盾点：既然真实数据分布（$x_0$）显然是非高斯的，为何模型假设所有中间状态 $x_t$ 都是高斯分布？这一假设的合理性需要从模型设计动机、数学性质及实际效果三方面综合理解。以下是具体分析：

1. …

旋转位置编码

2025-10-29

旋转位置编码（RoPE）理论上具备无限外推的潜力，但在实际应用中存在关键限制，需结合技术优化才能实现有限范围的有效扩展。以下是具体分析：

一、理论上的无限外推性

旋转机制的连续性
RoPE通过复数域的连续旋转变换编码位置信息：
- 位置 …

旋转位置编码（Rotary Position Embedding, RoPE）

2025-10-29

旋转位置编码（Rotary Position Embedding, RoPE）是一种通过旋转矩阵将位置信息融入词向量的方法，其核心在于利用几何旋转操作使注意力分数自然携带相对位置信息。以下是其技术细节的完整解析：

一、数学原理与设计目标 …

模型迁移训练

2025-10-29

当已经有一个训练好的模型，需要迁移到一个新的下游任务中，模型结构也有改变，应该如何迁移ckpt？如果要尽可能保留模型原本能力，一般应该是添加模块，所以原则是，增加模块的权重应该全部0初始化，使得修改后的整个ckpt载入后如果接受到原本任务 …

渐进式蒸馏

2025-10-29

渐进式蒸馏技术（Progressive Knowledge Distillation，PKD）是一种分阶段将大型“教师模型”的知识迁移至小型“学生模型”的模型压缩方法。其核心在于通过多阶段、分层级的训练策略，逐步引导学生模型模仿教师模型的输 …

类的实现原理

2025-10-29

torch.nn.Module 是 PyTorch 中所有神经网络模块的基类，承担了模型构建、参数管理、训练控制等核心功能。以下从具体行为、常见用法和注意事项三方面详细解析：

类的实现原理

实现文件： …

绝对位置编码：Transformer模型的序列位置基石

2025-10-29

绝对位置编码：Transformer模型的序列位置基石

在Transformer架构中，绝对位置编码是弥补自注意力机制位置无关性的核心组件，本文将深入解析其数学本质、演进历程与工程实践

1 什么是绝对位置编码？

绝对位置编码 …

论文阅读

2025-10-29

多模态视频编辑，允许通过文本、图像、音频等多种输入方式来控制生成和编辑视频内容，显著提升了创作的灵活性和效率。

论文阅读

2025以来的视频编辑方法

[[VideoPainter Any-length Video Inpainting …

t-SNE 降维

2025-10-20

t-SNE（t-Distributed Stochastic Neighbor Embedding，t-分布随机邻域嵌入）是一种非常流行且强大的非线性降维技术，尤其擅长将高维数据映射到二维或三维空间，以便进行可视化。它由 Laurens …

图像Embedding

2025-10-20

https://blog.csdn.net/shebao3333/article/details/143140294

聚类算法：从经典方法到前沿实践的系统梳理

2025-10-20

聚类算法：从经典方法到前沿实践的系统梳理

聚类（Clustering）是无监督学习的核心任务之一，旨在将样本划分为组，使组内样本相似、组间样本相异。它既是探索性数据分析的重要工具，也是在推荐系统、图像检索、异常检测、生物信息、网络社区发现、 …

本地手动编译torch

2025-10-17

从源码手动编译 PyTorch 可以让你获得与当前环境（特别是 CUDA 12.4）高度兼容的定制版本。下面我将为你详细阐述编译 PyTorch 2.5 版本的完整流程、关键配置以及常见问题的处理方法。

下图清晰地展示了从准备到验证的完整编 …

Diffusion Models A Comprehensive Survey of Methods and Application

2025-10-10

Diffusion Models学习入门

2025-10-10

以下是为你整理的Diffusion Models（扩散模型）入门学习路线，侧重理论推导与工程实践的结合，内容涵盖从基础概念到前沿进展，并附有推荐资源。

📌 一、学习路线总览

下表为扩散模型的渐进式学习框架，帮助你分阶段掌握核心内容： …

Diffusion模型 MOC

2025-10-10

高质量博客/综述

What are Diffusion Models?

英文版介绍

[[Diffusion Models A Comprehensive Survey of Methods and Applications]] …

机器学习 MOC

2025-10-10

[[机器学习入门]]

数学知识

领域	核心内容	应用场景
线性代数 …

JPEG图像压缩技术关键：从原理到实践

2025-10-09

JPEG图像压缩技术关键：从原理到实践

引言

JPEG（Joint Photographic Experts Group）是由ISO、IEC和ITU-T联合制定的静态图像压缩标准，自1992年发布以来已成为互联网和数码摄影领域应用最广泛的图 …

RANSAC算法详解：从原理到实战的鲁棒模型拟合指南

2025-09-27

RANSAC算法详解：从原理到实战的鲁棒模型拟合指南

引言

在现实世界的数据分析、计算机视觉和机器学习任务中，我们获得的数据往往包含大量的噪声和异常值。传统的最小二乘法等拟合方法对这类异常值非常敏感，可能导致完全错误的模型估计 …

未命名

2025-09-27

光流的基本概念

2025-09-26

#optical_flow #ofs #cv #光流估计

光流（Optical Flow）是计算机视觉中的一个重要概念，指的是图像序列中像素随时间的运动模式。它可以帮助我们分析视频中的运动信息，并在目标跟踪、视频稳定、运动检测等领域得到广 …

pHash 的数学原理和步骤：

2025-09-15

pHash 的数学原理和步骤：

pHash 的原理基于图像的特征提取，它通过离散余弦变换（DCT）将图像转换到频域，并利用低频信息生成哈希值。低频部分代表图像的整体特征，而高频部分则是噪声和细节。pHash 通过舍弃高频信息，仅保留图像的整 …

HuggingFace 使用教程

2025-09-15

下载模型文件

下载开放数据集

要指定 UCSC-VLAA/HQ-Edit 数据集的下载路径为 /workspace/ckpt_downstream/zzm/mydataset/image_edit，你有两种主要方法：

方法一：使用 …

受限玻尔兹曼机

2025-09-15

受限玻尔兹曼机

玻尔兹曼机是一种存在隐节点的无向图模型。在图模型中最简单的是朴素贝叶斯模型（朴素贝叶斯假设），引入单个隐变量后，发展出了 GMM，如果单个隐变量变成序列的隐变量，就得到了状态空间模型（引入齐次马尔可夫假设和观测独立假设就有 …

变分推断

2025-09-15

变分推断

我们已经知道概率模型可以分为，频率派的优化问题和贝叶斯派的积分问题。从贝叶斯角度来看推断，对于 $\hat{x}$ 这样的新样本，需要得到： $$ p(\hat{x}|X)=\int_\theta …

@torch.no_grad()

2025-09-12

@torch.no_grad() 是 PyTorch 中的一个装饰器，用于禁用梯度计算，主要作用包括：

1. 禁用自动求导（节省计算资源）

在该装饰器修饰的代码块中，PyTorch 不会跟踪张量的操作（不构建计算图），从而：
- 减少内存 …

12.HMM

2025-09-12

隐马尔可夫模型

隐马尔可夫模型是一种概率图模型。我们知道，机器学习模型可以从频率派和贝叶斯派两个方向考虑，在频率派的方法中的核心是优化问题，而在贝叶斯派的方法中，核心是积分问题，也发展出来了一系列的积分方法如变分推断，MCMC 等。概率图模 …

Diffusion Loss推导详细解释

2025-09-12

以下是对变分自编码器（VAE）中变分下界（VLB）推导过程的详细解析，结合数学原理逐步解释每一步的转换逻辑和物理意义。推导的核心目标是通过变分推断优化负对数似然（即交叉熵损失），最终将问题转化为可计算的KL散度组合。

1. 问题定义与目标 …

Introduction

2025-09-12

Introduction

对概率的诠释有两大学派，一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号： $$ X_{N\times …

MachineLearningNotes

2025-09-12

MachineLearningNotes

Reference

PyTorch TensorFlow内置计时

2025-09-12

深度学习框架的轻量级计时方法：关键是需要使用 torch.cuda.synchronize() # 同步等待

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import torch

start = torch. …

pytorch_lightning

2025-09-12

pl.LightningModule 是 PyTorch Lightning 框架的核心类，用于封装深度学习模型的全部逻辑（包括结构定义、训练/验证/测试步骤、优化器配置等）。它继承自 torch.nn.Module，但通过标准化接口和自动 …

Transformer

2025-09-12

![[Pasted image 20240607182037.png]]

bathcNorm是每个特征归一化，layerNorm是每个样本归一化 ![[Pasted image 20240607232037.png]]

学习资源 …

前馈神经网络

2025-09-12

前馈神经网络

机器学习我们已经知道可以分为两大流派：

频率派，这个流派的方法叫做统计学习，根据具体问题有下面的算法：
1. 正则化，L1，L2 等
2. 核化，如核支撑向量机
3. 集成化，AdaBoost，RandomForest
4. 层次 …

总结

2025-09-12

总结

Math

MLE $$ \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits …

指数族分布

2025-09-12

指数族分布

指数族是一类分布，包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式： $$ …

支撑向量机

2025-09-12

支撑向量机

支撑向量机（SVM）算法在分类问题中有着重要地位，其主要思想是最大化两类之间的间隔。按照数据集的特点：

线性可分问题，如之前的感知机算法处理的问题
线性可分，只有一点点错误点，如感知机算法发展出来的 Pocket 算法处理的问 …

期望最大

2025-09-12

期望最大

期望最大算法的目的是解决具有隐变量的混合模型的参数估计（极大似然估计）。MLE 对 $p(x|\theta)$ 参数的估计记为：$\theta_{MLE}=\mathop{argmax}\limits_\theta\log …

条件随机场

2025-09-12

条件随机场

分类问题可以分为硬分类和软分类两种。硬分类有 SVM，PLA，LDA 等；软分类问题大体上可以分为概率生成（比如朴素贝叶斯模型等）和概率判别（比如Logistic 回归等）模型。

Logistic 回归模型的损失函数为交叉熵，这 …

概率图模型

2025-09-12

概率图模型

概率图模型使用图的方式表示概率分布。为了在图中添加各种概率，首先总结一下随机变量分布的一些规则： $$ \begin{align} &Sum\ Rule:p(x_1)=\int p(x_1,x_2)dx_2\ …

爱因斯坦求和约定：从数学本质到高效张量运算

2025-09-12

爱因斯坦求和约定：从数学本质到高效张量运算

爱因斯坦求和约定（Einstein Summation Convention）是数学物理中一种简洁高效的张量运算表示法，后成为现代科学计算的核心工具之一。本文将深入探讨其数学原理、实现细节及在深度 …

粒子滤波

2025-09-12

粒子滤波

Kalman 滤波根据线性高斯模型可以求得解析解，但是在非线性，非高斯的情况，是无法得到解析解的，对这类一般的情况，我们叫做粒子滤波，我们需要求得概率分布，需要采用采样的方式。

我们希望应用 Monte Carlo 方法来进行采样 …

线性分类

2025-09-12

线性分类

对于分类任务，线性回归模型就无能为力了，但是我们可以在线性模型的函数进行后再加入一层激活函数，这个函数是非线性的，激活函数的反函数叫做链接函数。我们有两种线性分类的方式：

硬分类，我们直接需要输出观测对应的分类。这类模型的代表为 …

线性动态系统

2025-09-12

线性动态系统

HMM 模型适用于隐变量是离散的值的时候，对于连续隐变量的 HMM，常用线性动态系统描述线性高斯模型的态变量，使用粒子滤波来表述非高斯非线性的态变量。

LDS 又叫卡尔曼滤波，其中，线性体现在上一时刻和这一时刻的隐变量以及隐变 …

线性回归

2025-09-12

线性回归

假设数据集为： $$ \mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)} $$ 后面我们记： $$ …

计算图

2025-09-12

在 PyTorch 或深度学习框架中，计算图（Computational Graph） 是描述数学运算和数据流动的有向无环图（DAG），它是自动微分（Autograd）的核心机制。以下是关键概念和作用的详解：

1. 计算图的结构

节点 …

谱聚类

2025-09-12

谱聚类

聚类问题可以分为两种思路：

Compactness，这类有 K-means，GMM 等，但是这类算法只能处理凸集，为了处理非凸的样本集，必须引入核技巧。
Connectivity，这类以谱聚类为代表。

谱聚类是一种基于无向带权图 …

贝叶斯线性回归

2025-09-12

贝叶斯线性回归

我们知道，线性回归当噪声为高斯分布的时候，最小二乘损失导出的结果相当于对概率模型应用 MLE，引入参数的先验时，先验分布是高斯分布，那么 MAP的结果相当于岭回归的正则化，如果先验是拉普拉斯分布，那么相当于 Lasso 的正 …

近似推断

2025-09-12

近似推断

这一讲中的近似推断具体描述在深度生成模型中的近似推断。推断的目的有下面几个部分：

推断本身，根据结果（观测）得到原因（隐变量）。
为参数的学习提供帮助。

但是推断本身是一个困难的额任务，计算复杂度往往很高，对于无向图，由于节点 …

配分函数

2025-09-12

配分函数

在学习和推断中，对于一个概率的归一化因子很难处理，这个归一化因子和配分函数相关。假设一个概率分布： $$ …

降维

2025-09-12

降维

我们知道，解决过拟合的问题除了正则化和添加数据之外，降维就是最好的方法。降维的思路来源于维度灾难的问题，我们知道 $n$ 维球的体积为： $$ CR^n $$ 那么在球体积与边长为 $2R$ 的超立方体比值为： $$ …

马尔可夫链蒙特卡洛

2025-09-12

马尔可夫链蒙特卡洛

MCMC 是一种随机的近似推断，其核心就是基于采样的随机近似方法蒙特卡洛方法。对于采样任务来说，有下面一些常用的场景：

采样作为任务，用于生成新的样本
求和/求积分

采样结束后，我们需要评价采样出来的样本点是不是好的 …

高斯混合模型

2025-09-12

高斯混合模型

为了解决高斯模型的单峰性的问题，我们引入多个高斯模型的加权平均来拟合多峰数据： $$ p(x)=\sum\limits_{k=1}^K\alpha_k\mathcal{N}(\mu_k,\Sigma_k) $$ 引入隐变量 …

高斯网络

2025-09-12

高斯网络

高斯图模型（高斯网络）是一种随机变量为连续的有向或者无向图。有向图版本的高斯图是高斯贝叶斯网络，无向版本的叫高斯马尔可夫网络。

高斯网络的每一个节点都是高斯分布：$\mathcal{N}(\mu_i,\Sigma_i)$，于是所有 …

高斯过程回归

2025-09-12

高斯过程回归

将一维高斯分布推广到多变量中就得到了高斯网络，将多变量推广到无限维，就得到了高斯过程，高斯过程是定义在连续域（时间空间）上的无限多个高维随机变量所组成的随机过程。

在时间轴上的任意一个点都满足高斯分布吗，将这些点的集合叫做高斯 …

diffusion前向加噪过程公式推导

2025-09-11

摘要

2025-09-08

2020.8 发表的工作论文链接 Recurrent All-Pairs Field Transforms (RAFT)

摘要

我们介绍了一种新的光流深度网络架构，称为递归全对场变换（RAFT）。RAFT 从每个像素提取特征，为所有像素 …

ControlNet：精准控制AI图像生成的革命性框架

2025-09-06

ControlNet：精准控制AI图像生成的革命性框架

本文将深入探讨ControlNet的核心原理、技术实现与应用场景，带你全面了解这一让AI绘画从"随机创作"迈向"精准设计"的关键技术。

什么 …

1. CompVis/ldm-super-resolution-4x-openimages

2025-08-31

1. CompVis/ldm-super-resolution-4x-openimages

2. Real-ESRGAN

FFmpeg `-ss` 参数详解（输入/输出选项区别）

2025-08-31

FFmpeg `-ss` 参数详解（输入/输出选项区别）

官方说明翻译

-ss 位置（输入/输出选项）

作为输入选项时（在 `-i` 之前使用）

行为：在输入文件中跳转到指定位置
注意：
- 大多数格式无法精确跳转，FFmpeg 会跳转到最近的可定 …

Gabor纹理特征

2025-08-31

Gabor 变换 是一种用于纹理分析的经典方法，特别是在计算机视觉中用于图像的纹理特征提取。Gabor 滤波器是一种线性滤波器，它的形式类似于一个正弦波与高斯函数的乘积，能够捕捉图像中的频率和方向信息，因此非常适合用于分析图像的纹理。 …

GAN

2025-08-31

GAN网络（生成对抗网络）原理

生成对抗网络（GAN）是深度学习中的一种架构，由两部分组成：生成器（Generator）和判别器（Discriminator）。

生成器（Generator）：
- 目的：生成器的目的是创建尽可能真实的数据 …

H.264视频编码技术深度解析

2025-08-31

定义与技术定位

H.264（又称MPEG-4 AVC）是由ITU-T视频编码专家组（VCEG）与ISO/IEC动态图像专家组（MPEG）联合制定的高性能视频压缩标准，属于MPEG-4标准的第十部分。该标准通过混合编码架构，在相同画质下较 …

Hu不变矩

2025-08-31

Hu 不变矩 是由 Hu 在 1962 年提出的一种基于图像矩的形状特征提取方法。它由七个不变矩组成，这些矩具有旋转、平移和尺度不变性，常用于图像的形状识别和分类。

Hu 不变矩的定义：

Hu 提出了 7 个不变矩，这些矩都是基于图像的中心 …

SIFT

2025-08-31

SIFT（Scale-Invariant Feature Transform）是一种用于图像特征检测和匹配的算法，由 David Lowe 在 1999 年提出，并在 2004 年发表完整论文。它可以在 不同尺度、旋转、光照变化的情况下保持 …

Zernike矩

2025-08-31

#图像处理 #math

Zernike 矩 是一种基于极坐标的正交矩，用于图像的特征提取，尤其适用于形状和图像的几何特征分析。Zernike 矩的特点是对旋转不变，因此常用于旋转不变的图像识别任务。

Zernike 矩的数学表达式： …

光流计算

2025-08-31

为什么光流估计比较热门？

光流估计在计算机视觉领域非常热门，主要是因为它在目标跟踪、视频稳定、运动估计、自动驾驶等多个领域有广泛的应用。具体来说，光流技术受到关注的原因如下：

运动信息获取的核心技术

• 在视频分析、行为识别等任务中，运 …

全参考图像质量评估

2025-08-31

对比原始图片/视频和重建图片/视频是计算机视觉、图像处理和视频压缩等领域非常核心的任务，有时还没有原始信号可供比较，这是更具挑战性的场景。

根据原理和关注点分为以下几大类：

全参考图像质量评估

这类指标需要完整的原始图像（参考图像）和重建图 …

前期调研

2025-08-31

超分辨（Super Resolution）是一种图像处理技术，旨在将低分辨率图像转换为高分辨率图像。这种技术对于提高图像质量、增强细节以及改善图像在各种应用中的表现都非常有用。以下是一些关于超分辨的基本信息：

原理： 超分辨的主要原理是 …

常见分辨率

2025-08-31

以下是常见的视频和图像分辨率分类及典型用途：

1. 传统视频/显示器分辨率

分辨率名称	分辨率（宽×高）	比例	典型用途 …

视频场景检测

2025-08-31

定义

视频场景检测（Video Scene Detection）是指自动识别视频中场景边界的技术，将连续的视频流分割为语义连贯的片段。场景（Scene）通常由多个镜头（Shot）组成，表示同一时空下的连续事件，例如对话场景或动作场景。

关 …

角点

2025-08-31

角点（Corner）

角点是图像中梯度变化剧烈的点，即局部区域内的方向梯度变化明显的特征点。角点通常用于特征检测、运动追踪、图像配准、目标识别等计算机视觉任务。

1. 角点的定义

在数学上，角点通常是图像中两个边缘的交点，具有以下特点： …

TASD（Tiny Autoencoder for Stable Diffusion）

2025-08-29

#read https://github.com/madebyollin/taesd

在扩散模型（Diffusion Models）的语境中，TASD（Tiny Autoencoder for Stable Diffusion）是一种轻量级 …

自适应层归一化 AdaLN

2025-08-20

adaLN是指自适应层归一化（Adaptive Layer Normalization），它是一种在生成模型中注入条件信息的方法。具体来说，adaLN通过一个MLP从条件嵌入（如时间步和类别标签）中回归出缩放系数和偏移系数，这些系数用于调整 …

T5（Text-to-Text Transfer Transformer）

2025-08-16

T5（Text-to-Text Transfer Transformer）是 Google Research 开发的一个通用文本生成和处理模型，首次提出于论文 “Exploring the Limits of Transfer …

diffusion loss

2025-08-13

扩散模型的训练损失（Loss）设计与其核心目标——学习“去噪过程”密切相关，核心是通过优化损失函数让模型学会预测不同时间步的噪声或还原前一时间步的样本。常见的损失函数可分为基础噪声预测损失、扩展变体损失和特定任务优化损失三大类，具体如下： …

Diffusion Condition

2025-08-10

扩散模型通过条件嵌入机制将外部信息（如文本、图像、类别标签）融入去噪过程，主要接入方式分为以下四类：

一、条件类型与核心机制

1. 文本条件

CLIP语义对齐：文本通过CLIP编码器生成语义向量，作为交叉注意力的Key/Value，与图像 …

1. 扩散过程（Forward Process）

2025-08-07

扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM） 是一种生成模型，用于生成高质量的数据样本，尤其在图像生成任务中取得了显著的成功。DDPM的基本思想是通过模拟一个图像的扩散过程， …

ast

2025-08-07

Python 的 ast 模块（Abstract Syntax Tree）是标准库中用于解析、分析和操作 Python 代码结构的核心工具。它通过将源代码转换为树状数据结构（AST），使开发者能够以编程方式深度介入代码逻辑，适用于静态分析、 …

C3D：基于3D卷积的视频理解基础模型解析

2025-08-07

#视频理解 #视频分类

1. 引言

C3D（Convolutional 3D）是由Facebook AI Research团队在2015年提出的开创性工作[论文链接]，首次将3D卷积神经网络成功应用于视频理解任务。其核心思想是通过时空三维卷 …

causal attention

2025-08-07

Causal Attention（因果注意力） 是一种在序列建模中用于约束注意力流向的机制，核心目的是确保模型在处理序列数据时，当前位置只能关注到历史位置（包括自身），而无法“看到”未来位置的信息，从而遵循时序上的因果关系，避免信息泄露。 …

CBAM 的整体结构

2025-08-07

#cbam #attention #cnn

CBAM（Convolutional Block Attention Module）是一种轻量级但有效的注意力机制，由 通道注意力（Channel Attention） 和 空间注意力 …

Chatbot Arena

2025-08-07

https://lmsys.org/blog/2023-05-03-arena/

匿名随机PK 基于 Elo 评分系统

ConvNeXt 卷积神经网络的巅峰之作

2025-08-07

https://github.com/facebookresearch/ConvNeXt 相关博客

ConvNeXt：现代化的卷积神经网络（CNN）架构

ConvNeXt 是 Facebook AI Research 团队在 2022 年提 …

CoTracker3

2025-08-07

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

1. 研究背景

点追踪（Point Tracking）在计算机视觉中用于视频分析 …

DETR：

2025-08-07

论文：End-to-End Object Detection with Transformers

DETR approaches object detection as a direct set prediction problem. It …

EfficientSAM

2025-08-07

EfficientSAM: 利用掩码图像预训练实现高效的Segment Anything模型

1. 引言

EfficientSAM 是一个轻量级的 Segment Anything Model (SAM)，旨在大幅降低计算复杂度，同时保持良 …

Flow Matching：生成模型的新范式

2025-08-07

Flow Matching：生成模型的新范式

从噪声分布到目标数据分布的平滑转换路径

生成式AI领域近年来涌现出多种创新方法，其中Flow Matching凭借其理论基础与高效实践正迅速成为扩散模型的强大替代方案。本文将深入解析Flow …

FLUX

2025-08-07

https://zhuanlan.zhihu.com/p/6853326128

focal loss

2025-08-07

Focal Loss 是一种为了解决类别不平衡问题而提出的损失函数，最早在《Focal Loss for Dense Object Detection》这篇论文中提出，主要应用于目标检测任务，尤其是在处理类别不平衡的情况下表现出色 …

FPN金字塔网络：多尺度特征融合的深度学习架构

2025-08-07

#cnn #fpn

定义

特征金字塔网络（Feature Pyramid Network, FPN）是一种用于解决目标检测、实例分割等计算机视觉任务中多尺度问题的深度学习架构。其核心思想是通过构建具有**横向连接（lateral …

Fréchet Inception Distance (FID)

2025-08-07

在生成模型（如图像生成和视频生成）的研究与应用中，如何客观、准确地评估生成内容的质量是一个核心问题。Fréchet Inception Distance (FID) 和 Fréchet Video Distance (FVD) 是当前最广泛 …

Function Call

2025-08-07

大模型（LLMs, Large Language Models）的function call能力是指这些模型可以理解并执行特定的函数调用。简而言之，这意味着你可以向语言模型输入一些指令，它能够调用相应的函数，并返回结果。这个能力使得语言模型 …

Gated Convolution 门控卷积

2025-08-07

Gated Convolution 门控卷积

定义与核心思想

门控卷积（Gated Convolution） 是一种动态特征选择机制，通过引入可学习的门控值（Gating Values）来增强卷积操作的灵活性。其核心思想是：在卷积过程中，通 …

GoEX (Gorilla Execution Engine)

2025-08-07

论文总结和分析

论文标题：“GOEX: PERSPECTIVES AND DESIGNS TOWARDS A RUNTIME FOR AUTONOMOUS LLM APPLICATIONS”

作者与机构 …

GSM

2025-08-07

GitHub - openai/grade-school-math

HERMES temporal-coHERent long-forM understanding with Episodes and Semantics

2025-08-07

#视频分类 #文献阅读

文献总结：HERMES: TEMPORAL-COHERENT LONG-FORM UNDERSTANDING WITH EPISODES AND SEMANTICS

1. 研究背景与问题

背景：
- 现有长视频理解 …

Inception-v1（GoogLeNet）：深度学习中的多尺度特征革命

2025-08-07

#cnn

引言

Inception-v1（又称GoogLeNet）是Google团队在2014年提出的里程碑式卷积神经网络，其核心创新Inception模块通过多尺度并行卷积结构，在ImageNet 2014竞赛中以Top-5错误率 …

InternVL

2025-08-07

为了链接视觉模型和大语言模型，已有的Vision large language models (VLLMs)通常使用轻量化的”glue“ layers：

QFormer
linear projection 这种 glue layers 的 …

K 折交叉验证的步骤

2025-08-07

#机器学习 #训练

K 折交叉验证（K-Fold Cross Validation） 是一种常用的模型评估方法，特别适用于数据量较小的情况。它可以充分利用数据，提高模型的泛化能力，并减少因数据划分不同导致的模型性能波动。

K 折交叉验 …

LLM学习路线

2025-08-07

学习路径

本文分为四个章节，各章节的学习目标如下。请注意本文主要是面向工程界撰写，学术部分较少。

入门篇：
- 了解大语言模型的基础知识和常见术语。
- 学会使用编程语言访问 OpenAI API 等常见大语言模型接口。
提高篇：
- 了解机 …

LOOCV 的步骤

2025-08-07

#机器学习

留一交叉验证（LOOCV, Leave-One-Out Cross Validation） 是 K 折交叉验证（K-Fold Cross Validation） 的一种极端情况，其中 K 等于样本总数 N。它适用于 数据量非常 …

LoRA

2025-08-07

在LoRA（Low-Rank Adaptation）中，将一个高维的权重矩阵拆分成两个低秩矩阵相乘的过程主要涉及矩阵分解的思想。具体实现方式可以用简单的线性代数操作来描述。以下是具体的实现步骤和原理：

原理

假设有一个大矩阵 ( W ) 需 …

LTX Video 用法

2025-08-07

开源代码

1
python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_PATH …

MAE

2025-08-07

https://zhuanlan.zhihu.com/p/446761025

MAE(Masked Autoencoders)是用于CV的自监督学习方法，优点是扩展性强的（scalable），方法简单。在MAE方法中会随机mask输入图片的 …

masked auto-regression (MAR)

2025-08-07

深入解析 Masked Auto-Regression (MAR)：从时间序列到表格填补的革命性方法

Masked Auto-Regression (MAR) 是近年来在时间序列分析与深度学习交叉领域兴起的关键技术。它通过掩码机制控制信息流 …

Megatron

2025-08-07

GitHub - NVIDIA/Megatron-LM: Ongoing …

Megatron：大规模深度学习模型的训练框架

在深度学习的领域，训练大规模的语言模型已成为许多研究者和工程师关注的热点。随着数据量和模型规模的不断增加，训练这些 …

MLP训练经验

2025-08-07

MLP 训练时，除了层数和大小，优化器、学习率、批量大小、正则化等超参数对训练效果也有很大影响。以下是一些推荐的超参数设置及调整建议：

1. 学习率（lr）

学习率决定了模型的更新步长，选择合适的学习率至关重要：

• **太大 …

MMLU

2025-08-07

GitHub - standardgalactic/mmlu: Measuring Massive Multitask Language Understanding | ICLR 2021 “Measuring Massive …

MPI通信的训练

2025-08-07

以下介绍基于MPI通信的多机多卡训练方式，并提供完整的Python代码模板。MPI（Message Passing Interface）是一种跨节点的分布式训练协议，通过消息传递实现设备间通信，适用于大规模集群环境。

一、MPI多机多卡训 …

NLP任务技术迭代

2025-08-07

自从上世纪50年代“图灵测试”被提出，人们一直试图让机器获得智能。自然语言处理，Nature Language Process，NLP领域一直是关注的重点，技术也不断迭代。从开始的基于统计、神经网络，到现在主流的基于Transformer …

N阶自回归模型：原理、实现与应用

2025-08-07

#AR

自回归模型（AutoRegressive Model，简称AR模型）是时间序列分析中最基础且广泛应用的统计模型之一。其核心思想是利用历史数据预测未来值，通过捕捉时间序列内部的自相关结构实现预测和分析。本文将系统介绍AR模型的理论基础 …

ONNX

2025-08-07

https://onnx.org.cn/

Panda-70M

2025-08-07

Panda-70M: 多模态视频字幕数据集 论文： https://arxiv.org/abs/2402.19479 Web ： https://snap-research.github.io/Panda-70M

摘要 Panda-70M …

PCA（Principal Component Analysis，主成分分析）

2025-08-07

PCA 是一种经典的无监督降维方法，它通过线性变换将数据投影到一个新的坐标系统中，使得数据的方差最大化。其核心思想是找到数据中最重要的特征（主成分），并使用这些主成分来表示数据。

工作原理：

数据中心化：首先，将数据进行均值中心化，即去掉 …

PCA降维：从理论到实践的全方位解析

2025-08-07

PCA降维：从理论到实践的全方位解析

引言

主成分分析（Principal Component Analysis, PCA）是机器学习中最经典的降维技术之一，由卡尔·皮尔逊于1901年提出，至今仍在图像处理、生物信息学、金融分析等领域广泛应 …

QFormer：桥接视觉与语言的查询式Transformer

2025-08-07

#QFormer

什么是QFormer？

QFormer（Querying Transformer）是BLIP-2模型的核心组件，由Salesforce Research提出。它是一种轻量级的Transformer架构，专门设计用于高效桥接 …

RBF核：从理论到实践的全面解析

2025-08-07

在机器学习的非线性世界中，RBF核如同无形的桥梁，将低维的混沌转化为高维的秩序。

核心定义与数学本质

径向基函数核（Radial Basis Function Kernel），也称为高斯核，是机器学习中最强大的核函数之一。其数学定义为： …

ResNet：深度残差学习的革命性架构

2025-08-07

定义

残差网络（Residual Network, ResNet）是由微软研究院提出的深度卷积神经网络架构，其核心创新在于残差学习（Residual Learning）机制。通过引入跳跃连接（Skip Connection），解决了深度神经 …

SAM

2025-08-07

LLM的成功显示了基座大模型的强大泛用能力，只需要少量的prompt engineering即可实现媲美于fine-tune得到的模型，在zero-shot的任务上具有良好甚至SOTA的表现。

在CV领域能否复刻大模型的成功？ The …

SAM2

2025-08-07

![[Pasted image 20250213134426 1.png]] 文件主要介绍了 Segment Anything Model 2 (SAM 2)，一种面向图像和视频的可提示分割基础模型的改进版本。以下是摘要和关键内容： …

SAM项目汇总

2025-08-07

https://zhuanlan.zhihu.com/p/630529550

self-forcing

2025-08-07

研究问题

本文针对自回归视频扩散模型（autoregressive video diffusion models）中存在的训练-测试分布不匹配问题（exposure bias）展开研究。具体表现为：

传统方法局限性：现有方法（如 …

shell编程入门

2025-08-07

Shell 编程入门

Shell 编程是一种强大的脚本编写工具，用于自动化任务、管理系统和处理文件。以下是 Shell 编程的基本入门知识。

1. Shell 概述

Shell 是操作系统的命令解释器，可以接受用户输入的命令并执行。常见的 …

Simple Projection Layers 的定义与运算

2025-08-07

Simple Projection Layers 的定义与运算

基本定义

Simple Projection Layers（简单投影层） 在深度学习领域通常指无复杂非线性变换的线性映射层，其核心运算为： $$ z = W \cdot h + …

sklearn scikit-learn

2025-08-07

1. Sklearn 简介

scikit-learn（简称 sklearn）是一个基于 Python 的机器学习库，提供了简单易用的工具，用于数据挖掘和数据分析。Sklearn 建立在 NumPy、SciPy 和 Matplotlib 之上 …

SLAM技术：从原理到应用的全面解析

2025-08-07

1. 技术概述

即时定位与地图构建（Simultaneous Localization and Mapping，SLAM） 是机器人实现自主导航的核心技术，其核心目标是让机器人在未知环境中同时完成自身定位和环境建模。该技术由 …

SSM（Structured State Space Models，结构化状态空间模型）

2025-08-07

SSM（Structured State Space Models，结构化状态空间模型） 是近年来在深度学习领域备受关注的一类模型，尤其是随着 Mamba（一种基于SSM的架构）的提出，其潜力被认为可能挑战甚至超越 …

Tokenizer

2025-08-07

在机器学习（尤其是自然语言处理，NLP）领域，Tokenizer（分词器） 是一个将文本数据转换为模型可以处理的数值形式的工具或过程。它是将自然语言处理问题转化为机器学习模型所需输入的关键步骤之一。

Tokenizer 的核心作用 …

torchrun

2025-08-07

torchrun 是 PyTorch 提供的一个用于分布式训练的命令行工具，它支持多种分布式训练方式，包括单机多卡和多机多卡训练。以下是其主要用法和参数介绍：

基本用法

1
torchrun [options] …

torch分布式训练完全指南：从入门到精通

2025-08-07

torch分布式训练完全指南：从入门到精通

概述

分布式训练是深度学习领域的重要技术，它通过多台设备（GPU/CPU）的并行计算来加速模型训练过程。PyTorch作为当前最流行的深度学习框架之一，提供了一套完整的分布式训练解决方案。

分布式 …

train 和 eval

2025-08-07

在 PyTorch 中，model.train() 和 model.eval() 主要用于设置模型的 训练模式 和 推理模式，它们的作用如下：

1. model.train()

• 作用：将模型设置为训练模式，使得某些特定的层（如 …

Transfer Learning

2025-08-07

在这篇文章中，关于迁移学习（transfer learning）在缺陷识别任务中的应用，作者主要强调了其在数据稀缺情况下的优势。具体内容包括：

提升学习收敛效率：迁移学习通过导入预训练的特征层，能够在新任务中快速达成良好的特征表达，避免 …

TransNetV2：视频分割与场景检测的革新者

2025-08-07

TransNetV2 的核心概念

TransNetV2 是一种基于深度学习的**视频场景边界检测（Scene Boundary Detection, SBD）**模型，旨在准确分割视频中的连续场景（Scene）。其核心任务是通过分析视频帧间 …

TResNet

2025-08-07

TResNet（Tightly-coupled Residual Network）TResNet

TResNet 是 Alibaba DAMO Academy 提出的一个高效的图像分类网络，旨在 提高ResNet的计算效率，同时保持高精度。 …

UNet

2025-08-07

从零开始理解UNet：模型结构与训练细节

UNet是一种经典的深度学习模型，由Olaf Ronneberger等人于2015年提出，最初用于生物医学图像分割任务。其对称的U形结构、跳跃连接设计以及对小样本数据的适应性，使其成为图像分割领域的 …

Unet++Pytorch仓库训练代码含义

2025-08-07

这段代码是 nnUNet 框架中的主训练脚本，用于训练神经网络模型，进行验证或预测。它使用了许多命令行参数来配置训练、验证、加载预训练权重等。下面是对每个参数的理解和推测：

主要命令行参数及含义：

network

• 类型：字符串

• …

ViT

2025-08-07

ViT（Vision Transformer）是一种基于Transformer架构的视觉模型，首次提出时，它展示了Transformer在视觉任务中的潜力。传统上，**卷积神经网络（CNN）**是计算机视觉领域的主流架构，但ViT的出现改变 …

XGBoost：极致优化的梯度提升框架解析

2025-08-07

#xgb

https://zhuanlan.zhihu.com/p/162001079

什么是XGBoost？

XGBoost（eXtreme Gradient Boosting）是由陈天奇博士开发的分布式梯度提升算法框架，专为高效、灵活和 …

YOLO World

2025-08-07

https://blog.csdn.net/weixin_47151388/article/details/137424184

YOLOv9

2025-08-07

解决的主要目的：如何解决信息瓶颈

辅助可逆分支：可逆结构
多级辅助信息
GELAN = CSPNet + ELAN

一般的机器学习流程

2025-08-07

在机器学习（Machine Learning, ML）中，Train、Eval、Test 是数据划分和模型训练的关键步骤，每个阶段的目的和作用不同，确保模型能够有效泛化到未见过的数据。下面是详细介绍：

1. Train（训练集）

目的：用 …

交叉熵损失

2025-08-07

标准交叉熵损失（Cross-Entropy Loss）是机器学习中常用的损失函数，特别是在分类问题中。它度量的是两个概率分布之间的差异。在分类问题中，我们将它用来衡量模型输出的概率分布与真实标签分布之间的差异。

数学表达式

对于二分类问题， …

任务定义

2025-08-07

任务定义

图像抠图（image matting）是指从一张图像中精确提取出感兴趣对象，并将其与背景分离的任务。
这通常需要在像素级别对目标对象进行精确分割，以便实现高质量的抠图效果。
可以分为“需要人工辅助输入”和“全自动” …

似然函数和概率分布函数 LF &PDF

2025-08-07

在概率论与统计学中，似然函数和概率分布函数是两个非常重要的概念。它们在数据建模、估计和假设检验中扮演着核心角色。尽管它们看起来相似，但在含义和使用场景上有所不同。以下是对这两个概念的详细解释：

1. 概率分布函数 (Probability …

信息瓶颈理论

2025-08-07

信息瓶颈理论是由[[Naftali Tishby 1]]等人提出的一种机器学习理论，旨在理解神经网络学习过程中的信息处理和表示学习。该理论认为，在学习过程中，神经网络会通过去除输入数据中的冗余信息，提取出对于任务最为关键的信息，从而实现高效 …

分割任务的常见指标

2025-08-07

#segmentation #深度学习 #cv

在图像分割任务中，评估模型性能的常用指标主要包括以下几种：

1. 交并比（Intersection over Union, IoU）

定义: IoU 是预测分割区域与真实分割区域的重叠面积与 …

变分

2025-08-07

“变分”是一个在数学和计算机科学中非常重要的概念，特别是在优化、概率论和机器学习等领域。它通常涉及对某种函数或函数空间进行“变动”或“优化”的过程。变分的应用广泛，尤其是在推导和近似计算中。

1. 变分原理的基本概念

“变分 …

可变卷积 Deformable Convolution

2025-08-07

Deformable 卷积（Deformable Convolution）详细介绍

Deformable Convolution（可变形卷积）是为了克服传统卷积（包括空洞卷积）在处理一些复杂的几何形状或物体变化时，采样位置固定的问题。它的核 …

可逆结构

2025-08-07

Revisal

在一个batch内网络参数是如何优化的？

2025-08-07

在 一个 batch 内，网络参数的优化过程 主要涉及 前向传播（Forward Pass）、损失计算（Loss Computation）、反向传播（Backward Pass）和参数更新（Parameter Update），具体流程如下： …

基于扩散模型的深度生成建模：原理、进展与应用

2025-08-07

基于扩散模型的深度生成建模：原理、进展与应用

一、引言

1.1 生成模型的演进与挑战

生成模型是人工智能领域中旨在学习复杂数据分布并生成新样本的一类重要模型。自深度学习兴起以来，生成模型经历了从简单到复杂、从基础到高级的快速发展过程。早期的 …

多尺度监督：原理、实现与应用实践

2025-08-07

#深度学习 #监督方法

多尺度监督：原理、实现与应用实践

引言

多尺度监督（Multi-Scale Supervision）是计算机视觉和深度学习领域的重要技术范式，通过在不同尺度层次上施加监督信号，显著提升模型的特征学习能力。研究表明，在 …

如何使用label studio

2025-08-07

https://github.com/open-mmlab/playground/blob/main/label_anything/

链接：

子聚类

2025-08-07

子聚类（Subclustering） 是聚类分析中的一种技术，它指的是在已有聚类的基础上，进一步对每个聚类进行细分。也就是说，子聚类是一种递归聚类的过程，其中每个原始聚类（即“大聚类”）被进一步分割为若干个较小的聚类（即“子聚类”）。这种方 …

小波分解在视频速度操作检测中的应用详解

2025-08-07

分层等级的含义

小波分解中的分层等级(Level)表示对信号的多分辨率分析层次：

层次结构：第一层(Level1)捕捉最高频率的细节，随着层级增加，分析对象逐步转为低频成分
时间-频率局域化：高级分解在时间上更粗粒度，频率上更低频
特征尺 …

归纳偏置 inductive biases

2025-08-07

**偏置（Inductive Bias）**是机器学习中一个非常重要的概念。它指的是在没有充足数据时，模型在学习过程中引入的一些假设或假定，以帮助模型在有限数据条件下做出合理的推断。

归纳偏置（Inductive Bias），也叫做“学习偏 …

快慢编码策略（Slow-Fast Encoding Strategy）

2025-08-07

快慢编码策略（Slow-Fast Encoding Strategy）是一种在视频理解任务中优化计算效率的视觉特征提取方法，其核心思想是通过差异化处理不同时间分辨率的帧，在减少计算量的同时保留关键时空信息。以下是该策略的详细解析：

⚙️ …

我的疑问

2025-08-07

我的疑问

为什么重参数技巧让模型变得可以训练？

阅读笔记

Variational Bayesian（变分贝叶斯）和Graphical Model（图模型）是机器学习和统计学中两个重要的概念，二者常结合使用以解决复杂概率模型的推断问题，以 …

损失函数

2025-08-07

在 PyTorch 中，nn 提供了多种损失函数 (criterion)，用于不同的任务。对于 二分类任务（binary classification），合适的损失函数包括：

1. 适用于二分类任务

损失函数 说明 YAML 配置 …

支持向量机（SVM）：从理论到实践

2025-08-07

概述

支持向量机（Support Vector Machine, SVM）是一种经典的监督学习算法，由Vapnik等人于1992年正式提出[1]。它在小样本、非线性及高维模式识别中表现出色，广泛应用于分类和回归任务。

发展历程

1963 …

数学基础知识

2025-08-07

在本科毕业阶段，应掌握的数学常识和公式主要涵盖了微积分、线性代数、概率论与数理统计、离散数学以及常见的数学工具方法。这些知识不仅是继续深造的基础，也是进入工作实践中，特别是技术和科学相关领域时所需的基础能力。以下是简要总结：

一、微积分 …

机器学习常用指标

2025-08-07

这些参数都是用于评估分类模型性能的常见指标，它们来源于混淆矩阵（Confusion Matrix）。详细介绍如下：

1. 混淆矩阵（Confusion Matrix）

对于二分类任务（例如缺陷检测：有缺陷 vs 无缺陷），混淆矩阵如下： …

概论

2025-08-07

概论

人工智能是一个宽泛的交叉学科领域，其核心目标是让机器模拟人类的智能行为，包括但不限于感知、推理、学习、决策、自然语言理解、问题解决等。

本质：通过技术手段使机器具备“类人智能”，实现自主适应环境、处理复杂任务的能力。
范围：涵盖所有 …

模型对比

2025-08-07

![[模型对比.xlsx]]

![[张芷铭-2022141133-第2次作业.pdf]]

模型训练和推理时大概需要占用多少显存？

2025-08-07

https://blog.csdn.net/weixin_44292902/article/details/133767448 …

正则表达式的不同风格

2025-08-07

#编程/re 正则表达式（Regular Expressions）因应用场景和开发者需求的不同，形成了多种语法风格，不同风格在功能、语法规则和兼容性上存在差异。以下是对主要正则表达式语法风格的总结：

一、主流正则表达式语法风格分类

1. …

正态分布

2025-08-07

正态分布 (Normal Distribution) 是一种常见的概率分布，也叫做高斯分布（Gauss Distribution）。它在统计学、概率论以及各个学科中都有着广泛的应用。正态分布在自然界和社会现象中常常出现，比如人的身高、体重、 …

深度学习框架对比

2025-08-07

https://zhuanlan.zhihu.com/p/61576496

混合专家模型 MoE

2025-08-07

混合专家模型 (MoE) 详解 - Hugging Face

混合精度训练：原理、实现与最佳实践

2025-08-07

#机器学习 #训练加速

混合精度训练：原理、实现与最佳实践

引言

在深度学习模型规模指数级增长的今天，混合精度训练（Mixed Precision Training）已成为提升训练效率的核心技术之一。通过结合单精度（FP32）和半精度 …

特点

2025-08-07

https://mmbench.opencompass.org.cn/home

https://github.com/open-compass/mmbench/

特点

高质量、多样性
CircularEval + LLMs to …

监督学习、无监督学习、强化学习

2025-08-07

监督学习（Supervised Learning）

监督学习是利用标记数据训练模型的方法。目标是从输入数据中学习到映射函数，预测输出标签。常见算法包括线性回归、逻辑回归、决策树、支持向量机（SVM）等。

无监督学习（Unsupervised …

相同点

2025-08-07

这两个任务直觉上看起来非常相似，都可以概括的描述为 “计算视频中一些点的运动向量”。不过认真比较起来，还是有些差异。

[[光流（Optical Flow）详解：原理、算法与应用]] [[CoTracker3]]

视频点追踪和光流估计都是 …

空洞卷积 Atrous Convolution

2025-08-07

Atrous 这个单词来源于法语中的 à trous，意思是 “有洞的” 或 “带孔的"。它描述了一种特殊的卷积形式，即在卷积核的采样点之间插入“孔洞”或间隔，以扩大感受野。 …

简介

2025-08-07

Berkeley Function-Calling Leaderboard (BFCL), the first comprehensive evaluation on the LLM’s ability to call …

自回归 auto regressive

2025-08-07

自回归（Autoregression, AR） 是一种常用的统计模型，广泛应用于时间序列分析和预测中。自回归的核心思想是：当前时刻的值可以通过历史时刻的值来进行预测。这个过程是基于一个假设——过去的数据能够帮助预测未来。

简单的定义

自回归 …

自回归模型的数学推导

2025-08-07

#AR

自回归模型基础

自回归模型（Autoregressive Model，简称AR模型）是时间序列分析中的核心统计方法，通过历史数据预测当前值。其基本假设是当前时刻的值$X_t$可表示为前$p$个时刻值的线性组合加白噪声误差： …

自适应归一化

2025-08-07

自适应实例归一化（Adaptive Instance Normalization，AdaIN）是一种用于风格迁移和图像生成的归一化方法，由Huang & Belongie在2017年提出。以下是详细介绍：

核心思想：AdaIN的核 …

蒸馏投影层（Projection Layers for Distillation）

2025-08-07

引言

知识蒸馏（Knowledge Distillation, KD）是一种将“教师模型”（通常较大且复杂）的知识迁移到“学生模型”（通常较小且高效）的技术，被广泛应用于模型压缩和加速推理。蒸馏投影层作为该领域的关键创新，旨在解决教师与学生 …

视频分类技术综述：方法、挑战与前沿进展

2025-08-07

#分类 #机器学习 #深度学习

视频分类技术综述：方法、挑战与前沿进展

1. 引言

视频分类（Video Classification）是计算机视觉领域的核心任务之一，旨在为输入视频分配一个或多个语义标签。随着短视频平台（如TikTok）和 …

视频生成技术调研

2025-08-07

以下是2025年视频生成领域的最新进展，涵盖全球领先的公司、团队、模型及其技术特点，综合多来源信息整理：

一、国际前沿进展

OpenAI Sora
- 最新突破：2025年升级版支持60秒1080P视频生成，通过 …

视频生成领域调研

2025-08-07

以下是2025年视频生成领域的最新进展，涵盖全球领先的公司、团队、模型及其技术特点，综合多来源信息整理：

一、国际前沿进展

OpenAI Sora
- 最新突破：2025年升级版支持60秒1080P视频生成，通过 …

视频目标分割 VOS

2025-08-07

项目收集

[[SAM2]]

训练指标 `Train-Avg Probability` 的含义

2025-08-07

训练指标 `Train-Avg Probability` 的含义

Train-Avg Probability（训练集平均预测概率）是一个重要的监控指标，它能提供以下关键训练信息：

1. 模型置信度评估

意义：反映模型对预测结果的总体置信程度 …

评测

2025-08-07

大模型评测（Evaluation of Large Models）是衡量和比较大规模人工智能模型性能的重要过程。大模型通常指的是包含数十亿甚至数千亿参数的深度学习模型，例如OpenAI的GPT系列、Google的BERT以及DeepMind …

量子计算：原理、演进与未来突破

2025-08-07

定义与核心特性

量子计算是一种基于量子力学原理的新型计算范式，其核心单元是量子比特（Qubit）。与传统计算机的二进制比特（0或1）不同，量子比特通过叠加态和纠缠态实现并行计算：

叠加态：一个量子比特可表示为$|\psi\rangle = …

链接

2025-08-07

链接

概率论中常见符号辨析

学习概率论是一个循序渐进的过程，涉及理论的理解与实际应用的结合。为了系统地学习概率论，可以按照以下步骤来规划你的学习路径：

1. 打好数学基础

概率论涉及到大量的数学工具，尤其是以下几个方面的基础：

• 线性代数 …

问题

2025-08-07

23年5月的工作 论文精读笔记 - Gorilla: Large Language Model Connected with Massive APIs

问题

LLMs的API调用能力没有完全开发

原来一些手工的小的API，文档比较完备 …

阿里云通义万相2.1

2025-08-07

https://github.com/Wan-Video/Wan2.1

随机森林回归算法详解：原理、参数、代码与评估

2025-08-07

随机森林回归算法详解：原理、参数、代码与评估

一、算法原理

随机森林回归（Random Forest Regression, RFR）是一种基于集成学习的回归算法，通过组合多个决策树的预测结果提升模型的泛化能力。其核心思想可概括为以下三点： …

马尔可夫链

2025-08-07

马尔可夫链 (Markov Chain)

定义

马尔可夫链是一种随机过程，具有无记忆性的特性，也就是说，未来的状态仅与当前状态有关，而与历史状态无关。具体来说，若我们把系统的状态表示为一系列随机变量，那么马尔可夫链的关键特性是：系统从一个状 …

Fréchet Video Distance (FVD)

2025-08-06

自回归 autoregressive

2025-04-20

视频镜头检测

2025-04-08

GiNi重要性

2025-04-06

Horn-Schunck 全局光流估计算法

2025-04-06

DINO

2025-02-07

DINO_副本

2025-02-07

Exploring Video Quality Assessment on User Generated Contents from Aesthetic and Technical Perspectives

2025-02-07

Grounded

2025-02-07

LLaMA

2025-02-07

PAN Path Aggregation Network

2025-02-07

SAM Video

2025-02-07

Tensor Flow

2025-02-07

语义分割

2025-02-07

0001-01-01

在人工智能领域，尤其是大语言模型（LLM）和Transformer架构中，注意力机制已成为核心组件。然而，随着模型规模不断扩大和序列长度增加，传统注意力机制面临着严峻的计算效率和内存瓶颈。FlashAttention应运而生，作为一种I/O …

0001-01-01

在扩散模型中，RectifiedFlowScheduler.step() 方法的作用远不止简单的噪声相减，而是通过 数学优化路径 和 动态时间步控制 来实现高效、稳定的去噪过程。以下从原理、设计逻辑和代码实现三个层面详细解析：

一、核心问 …

0001-01-01

定义

结构相似性指标（SSIM, Structural Similarity Index） 是一种用于衡量两幅图像相似度的全参考（Full-Reference）图像质量评估方法，由Wang等人于2004年提出。其核心思想是通过比较亮度 …

0001-01-01

图像羽化算法的核心原理，是通过渐变式地降低边缘像素的不透明度，让目标区域与背景自然融合，从而消除生硬的边界。

一、核心原理：从“硬边界”到“软过渡”

传统的图像选区或裁剪是“非黑即白”的，像素要么完全保留，要么完全舍弃，这就形成了硬边缘。羽 …

0001-01-01

PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）是一种常用的图像质量评估指标，用来衡量压缩图像或视频与原始图像或视频之间的相似度。PSNR越高，表示压缩后的图像质量越接近原始图像。

公式

PSNR的计算公式为： …

0001-01-01

#卷积 #cnn #conv

3D 卷积（3D Convolution）是一种 针对三维数据（如视频、医学影像、3D 点云等） 的卷积操作，它扩展了 2D 卷积的概念，在 空间（Height, Width）和时间（Depth）三个维度上同时 …

0001-01-01

概述

Kullback-Leibler散度（简称KL散度或也称为相对熵（Relative Entropy））是信息论中衡量两个概率分布差异的重要工具。由Solomon Kullback和Richard Leibler于1951年提出，现已成 …

0001-01-01

在人工智能的浪潮中，我们习惯于模型给出一个确定的答案：这张图是“猫”，这段文本的情感是“积极”。然而，在现实世界中，“不确定性”无处不在。模型能否不仅给出预测，还能告诉我们它对这个预测有多大的把握？这正是贝叶斯深度学习（Bayesian …

0001-01-01

Self-attention 和 cross-attention 是 Transformer 模型中的两个重要概念，它们都用于计算序列中不同位置之间的依赖关系。虽然这两者有相似之处，但它们的应用场景和机制是不同的。

1. …

0001-01-01

在信息爆炸的时代，聚类算法帮助我们从混沌中找出秩序，它是无监督学习中最具魅力的技术之一。

聚类分析作为数据挖掘和机器学习中的重要组成部分，其核心目标是将数据集中的对象分成多个类或簇，使得同一簇内的对象相似度较高，而不同簇间的对象相似度较 …

0001-01-01 ##轮廓系数 ##Calinski-Harabasz指数

在您的代码中，轮廓系数和Calinski-Harabasz指数都是用来评估聚类效果好坏的指标，它们能帮助判断数据点聚类是否“内紧外松”。下表清晰地展示了它们的核心特点与差异：

评估指标 …

0001-01-01

在图像处理中，HED Boundary 指的是通过 HED（Holistically-Nested Edge Detection，全嵌套边缘检测）算法 提取的图像边缘（边界）。它是一种基于深度学习的边缘检测技术，核心目标是精准识别图像中物体 …

0001-01-01

核心思想与定义

Vision Transformer（ViT） 是2020年由Google提出的突破性架构[[An Image is Worth 16x16 Words Transformers for Image Recognition …

0001-01-01

Diffusion Models: A Comprehensive Survey of Methods and Applications

This repo is constructed for collecting and …

0001-01-01

1 定义与发展历程

Diffusion Model（扩散模型）是一类基于[[马尔可夫链]] 的生成式模型，其核心思想是通过逐步添加噪声破坏数据分布，再学习逆向去噪过程以重建数据。受非平衡统计物理学的启发，该模型通过前向扩散系统性地破坏数据结 …

0001-01-01

DiT即Diffusion Transformer，是一种基于Transformer架构的扩散模型，用于图像和视频等视觉生成任务。以下是具体介绍：

核心思想：DiT将Transformer作为扩散模型的骨干网络，替代传统的卷积神经网络（如 …

0001-01-01 #excalidraw

==⚠ Switch to EXCALIDRAW VIEW in the MORE OPTIONS menu of this document. ⚠== You can decompress Drawing data with the …

0001-01-01

HDF5详解：高效管理大规模数据的终极指南

1. 什么是HDF5？为什么它如此重要？

HDF5（Hierarchical Data Format version 5）是一种用于存储和组织大量数据的跨平台文件格式，由美国国家超级计算应用中心 …

0001-01-01

#视频分类

1. 引言

I3D (Inflated 3D ConvNet) 是由DeepMind团队在2017年提出的视频动作识别里程碑模型，其核心创新在于将2D图像分类网络的卷积核"膨胀"到3D时空维度。该模型通过引入 …

0001-01-01

在深度学习中，卷积神经网络（CNN）通常用于图像、音频和视频等数据的处理。传统的卷积操作考虑的是所有位置的信息，不论是在时间轴上还是空间上。而在许多时序数据任务中，如语音识别、时间序列预测、视频分析等，时序信息是至关重要的。在这种情境下， …

0001-01-01

深度学习中的位置编码原理及应用

什么是位置编码

位置编码（Positional Encoding）是Transformer架构中引入序列顺序信息的关键机制。由于Transformer的自注意力机制本身不具备顺序敏感性，无法区分像“猫追老鼠” …

0001-01-01

不同的损失函数适用于不同的任务和数据集，选择合适的损失函数对模型的训练和性能至关重要。Focal Loss 适合类别不平衡的任务，Dice Loss 更适合图像分割等任务，交叉熵损失则是分类任务中的常规选择，MSE 和 L1 损失适用于回归 …

0001-01-01 ##位置编码

[!abstract] INTRODUCTION 在自然语言处理（NLP）乃至更广泛的序列数据处理领域，Transformer 架构的兴起无疑是一场革命。它凭借自注意力（Self-Attention）机制并行处理序列中的所有元素，极大地提 …

0001-01-01

本文的内容结构如下：

graph TD
    A[基础介绍] --> B[数学根基]
    A --> C[核心算法]
    C --> D[工程实践]
    D --> E[前沿拓展]
    E …