2025-2026 年图像生成模型的技术全景:架构(统一多模态、动态 DiT、混合 AR-Diffusion)、训练(PEFT、量化、3D 并行)、推理(FP8/FP4、TensorRT、单步采样)、应用(文生图、图像编辑、超分、多模态融合)、前沿(物理建模、NeRF/3DGS、量子 ML)。
架构演进
统一多模态 Transformer
| 模型 | 参数 | 关键设计 | 亮点 |
|---|---|---|---|
| HunyuanImage-3.0 | 80B(MoE,激活 13B) | 原生多模态自回归,单模型完成文本理解+图像生成+常识推理 | SSAE 85.2%(超 DALL-E 3 的 82.1%) |
| Z-Image | 6B | 单流扩散 Transformer(S3-DiT),文本/视觉/VAE token 序列级拼接 | 314K H800·h(约 63 万美元)训完,性能对标 20-80B |
| HART | — | 离散 token + 残差连续,混合分词器 | MJHQ-30K 重建 FID 2.11→0.30,生成 FID 7.85→5.38 |
动态/高效架构
- DyDiT(ICLR 2025):按时间步与空间区域动态分配算力,DiT-XL FLOPs ↓51%,速度 ×1.73,FID 几乎无损,仅需 < 3% 微调成本
- DiT-Air:共享 AdaLN + 直接处理拼接的文本/噪声输入,相比 MMDiT 参数 ↓66%,相比 PixArt-α ↓25%
- 层间共享:仅注意力共享 ≈ 33% 参数减少且性能损失最小;全块共享损失明显
扩散关键突破
- DMD(MIT CSAIL):单步扩散,速度 ×30,ImageNet 单步 FID 0.3
- DDO(清华+NVIDIA, ICML 2025):把似然模型隐式参数化为 GAN 微调,无需额外网络。ImageNet 512² 无引导 FID 1.96→1.26
- InfinityStar(NeurIPS 2025):纯离散自回归统一时空,VBench 83.74,比扩散类方法快约 10×
- 采样器:DDPM → DDIM → DPM-Solver;现可在 10 步达 80-90% 标准质量
GAN 仍在演进
- StyleGAN3:连续信号 + 低通滤波解决等变性与混叠
- FDGAN:把 GAN 判别器嵌入扩散去噪中段,配 ANPM 选择性触发
- 轻量化 GAN:从随机噪声扩展到文本引导,网易伏羲用 StyleGAN3 自动生成 10 万套 NPC 服装,美术成本 ↓80%
训练优化
参数高效微调(PEFT)
| 方法 | 关键 | 收益 |
|---|---|---|
| LoRA | , | 1024² 线性层从 1.05M → 131K 参数(压缩 87.5%) |
| QLoRA | 4-bit 量化基模型 + LoRA | 内存效率 ↑60%,单 GPU 微调 7B 可行 |
| LowRA | 首个 ≤2 bit 的 LoRA 微调,定制 CUDA 内核 | LLaMA-33B 在 1.15 bit 微调,困惑度仅 +0.54,内存 ↓50% |
| Adapter-LoRA / P-Tuning v2 | 适配器 + LoRA / 连续提示 | 不同任务的灵活组合 |
高效训练栈
- 混合精度:BF16 渐取代 FP16(数值稳定性更优);内存 ↓50%、速度 ×1.3
- 梯度检查点:与 BF16 + xFormers 组合,40 GB → 19.2 GB
- 优化器:FRUGAL(梯度分裂为全秩+稀疏);K-FAC 二阶方法
- 3D 并行 + ZeRO-3:显存 ↓87%,千亿参数训练成本 ↓65%
部署优化
| 技术 | 例子 | 效果 |
|---|---|---|
| TensorRT | SD3.5 Large | 速度 ×2.3,VRAM ↓40% |
| FP8/FP4 | FLUX.1 / FLUX.2 on Blackwell | VRAM 90 GB → 54 GB,性能 ↑40% |
| 蒸馏 | 混元 Lite v2.2 | 10 步 + CFG 1.5 达标准模型 80-90% 质量 |
| Skip Softmax | TensorRT-LLM | exp(很小负数)≈0 跳过计算,TTFT ↑1.4× |
| 推测级联 | Google Speculative Cascades | 推测解码 + 标准级联 |
任务专用技术栈
文生图
- GPT-4o(OpenAI)取代 DALL-E:多模态统一,文字渲染清晰,可精准修改单个对象颜色
- ControlNet++ ProMax:12 种控制条件 + 5 种高级编辑,动态路由 + 自适应特征融合
- CLIP 引导:Control-CLIP 用专门微调任务和交叉注意力机制把扩散精确导向特定领域,主干参数不变
- 中文优化(如 Qwen-Image):扩展 8 万 + 汉字 token;中文图文对占 47%;动态长度预测;复杂中文描述准确率比 SDXL 高 39.6%
图像编辑/局部重绘
| 方法 | 思路 | 亮点 |
|---|---|---|
| Inpaint4Drag(HKU) | 拖拽 → 双向扭曲 + Inpainting | 0.01 s 预览 + 0.3 s 修复,可适配任何 inpainting 模型 |
| HarmonPaint | 无训练修复,集成进注意力 | 即插即用 |
| RAD | 区域感知扩散 | 修复区与非修复区差异化处理 |
| DiffPhy / PhysCtrl | 注入物理定律,控制力与参数 | 让生成视频符合物理规律 |
超分辨率
- AdcSR(CVPR 2025):A100 上 128² → 512² 仅 0.03 s,参数比 OSEDiff ↓74%
- 自级联扩散:任意尺度 SOTA(LPIPS / FID)
- IntrinsiX:基于 PBR 的生成,输出反射率/粗糙度等通道
- DiffFuSR:扩散超分 RGB → 用作空间先验放大其他多光谱波段
多模态融合
- 统一 Omni 模型:Lumina-DiMOO、Ming-Lite-Omni、Uni-MoE-2.0-Omni(基于 Qwen2.5-7B)
- 多模态视频合成:SD + GPT-2 + gTTS 流水线生成 60 s 短视频
- MILS(Meta + 学界):纯文本 LLM 配多模态嵌入模型,无需训练即可为图/视/音生成字幕
工程实践
数据集
- Pico-Banana-400K(Apple):40 万张文本引导图像编辑数据
- TextAtlas5M:500 万长文本图像,专攻长文本渲染评测
- 多图合成流水线:每对象 n 个 prompt → 生成 n 张一致图 → 过滤
- 手部增强:识别手部关键词样本 → 加 “高清手部特写,五指分明” 等 → 准确率 62% → 81%
数据组织最佳实践:
images/
captions.jsonl{"file_name": "img_001.jpg", "text": "1女孩, 双马尾, 白色连衣裙, 花园背景, 日系插画风格"}训练流程
| 阶段 | 分辨率 | 步数 | batch |
|---|---|---|---|
| Pre-train 1 | 256² | 500K | 4096 |
| Pre-train 2 | 512² | 100K | 2048 |
| SFT | — | 2.5K | 64 |
| Reward FT | — | 4.8K | 64 |
经验配置:lr=8e-6,UNet lr_ratio=1.0,TextEnc lr_ratio=0.5,cosine + 500 步 warmup,AdamW 8-bit。6000 步后明显过拟合(PSNR ↓12%,FID ↑21%),早停是关键。
评估
| 指标 | 衡量 |
|---|---|
| FID | 与真实分布差距 |
| IS | 清晰度 + 多样性 |
| LPIPS | 感知相似度 |
| CLIP Score | 图文一致性 |
| 人类评估 | 主观偏好 |
加权综合(参考权重):FID 0.3 + IS 0.2 + CLIP 0.3 + 人评 0.2。
t2i_benchmark_2025:1 万 prompt × 6 类 × 6 语言。生产端建议建持续评估系统,监控指标漂移。
前沿趋势
物理与 PBR
- 光学计算:用光子直接执行图像生成,能耗或下降数量级
- NVIDIA Cosmos:物理感知世界基础模型,运动/碰撞/能量都符合规律
- DiffPhy / PhysCtrl:把牛顿定律、能量守恒等约束注入视频生成
- IntrinsiX:直接生成 PBR 渲染贴图,光照可调
NeRF / 3D 高斯
- Instant-NeRF(NVIDIA):哈希网格 + 分层采样,从小时级训练降到分钟级
- 3D Gaussian Splatting:渲染效率与可扩展性均优于传统 NeRF,已用于自动驾驶、医疗、电商
- NeRF + 扩散:文本 → 3D 场景 → 任意视角渲染图像
量子 ML(早期)
- QAOA / VQE:组合优化的指数级潜在加速
- 混合量子-经典架构:量子并行算梯度,经典控流程
- 量子 ML 方向:增强特征提取、加速 GAN、量子 Transformer
产业趋势
- 开源占有率:18%(2023)→ 47%(2025)。HunyuanImage-3.0 等大型开源 MoE 推动落地
- 成本革命:电商商品图 2000 元/组 → 50 元/组(×40 降本),效率 ×72
- 路线图:HunyuanImage-3.0 → 2025 末图生图/编辑 → 2026 Q1 多轮交互 → Q2 视频生成
- 规范化:评估标准、质量认证、安全与版权机制正在建立
一句话核心
2026 年的图像生成 = 统一多模态架构 + 单步/极少步推理 + 极致量化部署 + 物理感知 + 开源生态。架构、训练与推理在并行加速;前沿正在把”视觉真实”扩展到”物理真实”。