2025-2026 年图像生成模型的技术全景:架构(统一多模态、动态 DiT、混合 AR-Diffusion)、训练(PEFT、量化、3D 并行)、推理(FP8/FP4、TensorRT、单步采样)、应用(文生图、图像编辑、超分、多模态融合)、前沿(物理建模、NeRF/3DGS、量子 ML)。

架构演进

统一多模态 Transformer

模型参数关键设计亮点
HunyuanImage-3.080B(MoE,激活 13B)原生多模态自回归,单模型完成文本理解+图像生成+常识推理SSAE 85.2%(超 DALL-E 3 的 82.1%)
Z-Image6B单流扩散 Transformer(S3-DiT),文本/视觉/VAE token 序列级拼接314K H800·h(约 63 万美元)训完,性能对标 20-80B
HART离散 token + 残差连续,混合分词器MJHQ-30K 重建 FID 2.11→0.30,生成 FID 7.85→5.38

动态/高效架构

  • DyDiT(ICLR 2025):按时间步与空间区域动态分配算力,DiT-XL FLOPs ↓51%,速度 ×1.73,FID 几乎无损,仅需 < 3% 微调成本
  • DiT-Air:共享 AdaLN + 直接处理拼接的文本/噪声输入,相比 MMDiT 参数 ↓66%,相比 PixArt-α ↓25%
  • 层间共享:仅注意力共享 ≈ 33% 参数减少且性能损失最小;全块共享损失明显

扩散关键突破

  • DMD(MIT CSAIL):单步扩散,速度 ×30,ImageNet 单步 FID 0.3
  • DDO(清华+NVIDIA, ICML 2025):把似然模型隐式参数化为 GAN 微调,无需额外网络。ImageNet 512² 无引导 FID 1.96→1.26
  • InfinityStar(NeurIPS 2025):纯离散自回归统一时空,VBench 83.74,比扩散类方法快约 10×
  • 采样器:DDPM → DDIM → DPM-Solver;现可在 10 步达 80-90% 标准质量

GAN 仍在演进

  • StyleGAN3:连续信号 + 低通滤波解决等变性与混叠
  • FDGAN:把 GAN 判别器嵌入扩散去噪中段,配 ANPM 选择性触发
  • 轻量化 GAN:从随机噪声扩展到文本引导,网易伏羲用 StyleGAN3 自动生成 10 万套 NPC 服装,美术成本 ↓80%

训练优化

参数高效微调(PEFT)

方法关键收益
LoRA1024² 线性层从 1.05M → 131K 参数(压缩 87.5%)
QLoRA4-bit 量化基模型 + LoRA内存效率 ↑60%,单 GPU 微调 7B 可行
LowRA首个 ≤2 bit 的 LoRA 微调,定制 CUDA 内核LLaMA-33B 在 1.15 bit 微调,困惑度仅 +0.54,内存 ↓50%
Adapter-LoRA / P-Tuning v2适配器 + LoRA / 连续提示不同任务的灵活组合

高效训练栈

  • 混合精度:BF16 渐取代 FP16(数值稳定性更优);内存 ↓50%、速度 ×1.3
  • 梯度检查点:与 BF16 + xFormers 组合,40 GB → 19.2 GB
  • 优化器:FRUGAL(梯度分裂为全秩+稀疏);K-FAC 二阶方法
  • 3D 并行 + ZeRO-3:显存 ↓87%,千亿参数训练成本 ↓65%

部署优化

技术例子效果
TensorRTSD3.5 Large速度 ×2.3,VRAM ↓40%
FP8/FP4FLUX.1 / FLUX.2 on BlackwellVRAM 90 GB → 54 GB,性能 ↑40%
蒸馏混元 Lite v2.210 步 + CFG 1.5 达标准模型 80-90% 质量
Skip SoftmaxTensorRT-LLMexp(很小负数)≈0 跳过计算,TTFT ↑1.4×
推测级联Google Speculative Cascades推测解码 + 标准级联

任务专用技术栈

文生图

  • GPT-4o(OpenAI)取代 DALL-E:多模态统一,文字渲染清晰,可精准修改单个对象颜色
  • ControlNet++ ProMax:12 种控制条件 + 5 种高级编辑,动态路由 + 自适应特征融合
  • CLIP 引导:Control-CLIP 用专门微调任务和交叉注意力机制把扩散精确导向特定领域,主干参数不变
  • 中文优化(如 Qwen-Image):扩展 8 万 + 汉字 token;中文图文对占 47%;动态长度预测;复杂中文描述准确率比 SDXL 高 39.6%

图像编辑/局部重绘

方法思路亮点
Inpaint4Drag(HKU)拖拽 → 双向扭曲 + Inpainting0.01 s 预览 + 0.3 s 修复,可适配任何 inpainting 模型
HarmonPaint无训练修复,集成进注意力即插即用
RAD区域感知扩散修复区与非修复区差异化处理
DiffPhy / PhysCtrl注入物理定律,控制力与参数让生成视频符合物理规律

超分辨率

  • AdcSR(CVPR 2025):A100 上 128² → 512² 仅 0.03 s,参数比 OSEDiff ↓74%
  • 自级联扩散:任意尺度 SOTA(LPIPS / FID)
  • IntrinsiX:基于 PBR 的生成,输出反射率/粗糙度等通道
  • DiffFuSR:扩散超分 RGB → 用作空间先验放大其他多光谱波段

多模态融合

  • 统一 Omni 模型:Lumina-DiMOO、Ming-Lite-Omni、Uni-MoE-2.0-Omni(基于 Qwen2.5-7B)
  • 多模态视频合成:SD + GPT-2 + gTTS 流水线生成 60 s 短视频
  • MILS(Meta + 学界):纯文本 LLM 配多模态嵌入模型,无需训练即可为图/视/音生成字幕

工程实践

数据集

  • Pico-Banana-400K(Apple):40 万张文本引导图像编辑数据
  • TextAtlas5M:500 万长文本图像,专攻长文本渲染评测
  • 多图合成流水线:每对象 n 个 prompt → 生成 n 张一致图 → 过滤
  • 手部增强:识别手部关键词样本 → 加 “高清手部特写,五指分明” 等 → 准确率 62% → 81%

数据组织最佳实践:

images/
captions.jsonl
{"file_name": "img_001.jpg", "text": "1女孩, 双马尾, 白色连衣裙, 花园背景, 日系插画风格"}

训练流程

阶段分辨率步数batch
Pre-train 1256²500K4096
Pre-train 2512²100K2048
SFT2.5K64
Reward FT4.8K64

经验配置:lr=8e-6,UNet lr_ratio=1.0,TextEnc lr_ratio=0.5,cosine + 500 步 warmup,AdamW 8-bit。6000 步后明显过拟合(PSNR ↓12%,FID ↑21%),早停是关键。

评估

指标衡量
FID与真实分布差距
IS清晰度 + 多样性
LPIPS感知相似度
CLIP Score图文一致性
人类评估主观偏好

加权综合(参考权重):FID 0.3 + IS 0.2 + CLIP 0.3 + 人评 0.2。

t2i_benchmark_2025:1 万 prompt × 6 类 × 6 语言。生产端建议建持续评估系统,监控指标漂移。

前沿趋势

物理与 PBR

  • 光学计算:用光子直接执行图像生成,能耗或下降数量级
  • NVIDIA Cosmos:物理感知世界基础模型,运动/碰撞/能量都符合规律
  • DiffPhy / PhysCtrl:把牛顿定律、能量守恒等约束注入视频生成
  • IntrinsiX:直接生成 PBR 渲染贴图,光照可调

NeRF / 3D 高斯

  • Instant-NeRF(NVIDIA):哈希网格 + 分层采样,从小时级训练降到分钟级
  • 3D Gaussian Splatting:渲染效率与可扩展性均优于传统 NeRF,已用于自动驾驶、医疗、电商
  • NeRF + 扩散:文本 → 3D 场景 → 任意视角渲染图像

量子 ML(早期)

  • QAOA / VQE:组合优化的指数级潜在加速
  • 混合量子-经典架构:量子并行算梯度,经典控流程
  • 量子 ML 方向:增强特征提取、加速 GAN、量子 Transformer

产业趋势

  • 开源占有率:18%(2023)→ 47%(2025)。HunyuanImage-3.0 等大型开源 MoE 推动落地
  • 成本革命:电商商品图 2000 元/组 → 50 元/组(×40 降本),效率 ×72
  • 路线图:HunyuanImage-3.0 → 2025 末图生图/编辑 → 2026 Q1 多轮交互 → Q2 视频生成
  • 规范化:评估标准、质量认证、安全与版权机制正在建立

一句话核心

2026 年的图像生成 = 统一多模态架构 + 单步/极少步推理 + 极致量化部署 + 物理感知 + 开源生态。架构、训练与推理在并行加速;前沿正在把”视觉真实”扩展到”物理真实”。