Transformer
共 6 篇文章
Vision Transformer(ViT)将图像分割为 Patch 序列,通过自注意力机制实现全局建模,颠覆了 CNN 主导的视觉处理范式。
核心原理
工作流程
1. 图像分块与嵌入
输入图像($H \times W \times …
Diffusion Transformers(DiT)融合 Transformer 架构与扩散模型,通过全局建模能力和卓越扩展性重塑图像与视频生成范式。
概述
DiT 是一种将 Transformer 架构与扩散模型相结合的生成式模型。 …
扩散模型与 Transformer 的融合通过全局建模能力和灵活条件注入显著提升生成质量与可控性。
结合机制
主干网络替换(DiT)
DiT(Diffusion Transformer)直接用 Transformer 替代传统 …
Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。
模型规格
| 变体 | 参数量 … |
|---|
QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。
核心架构
| 模块 … |
|---|
位置编码解决 Transformer 自注意力机制的「顺序失忆症」,为模型注入序列位置信息。从绝对编码到 RoPE,相对位置建模成为主流。
为什么需要位置编码
自注意力机制具有置换不变性:$Attention(Q,K,V) = …
张芷铭的个人博客