神经网络按”输入形态 + 任务类型”分八大类。FNN 为基础;CNN 处理图像/视频;RNN/LSTM 处理短序列;Transformer 取代 RNN 成为序列与多模态的统一架构;GAN/VAE/AE 负责生成与压缩;GNN 处理图结构数据。

八大类型速查

类型核心主要用途
FNN(MLP)信息单向流动,最基础静态分类/回归、复杂网络的子模块
CNN局部连接、权值共享图像分类、检测、医学影像
RNN(LSTM/GRU)隐藏状态记忆历史短序列建模、语音识别
AE / VAE编码-解码压缩还原数据压缩、去噪、异常检测、生成
GAN生成器与判别器对抗图像生成、风格迁移、超分辨率
GNN邻居聚合更新节点社交网络、分子设计、推荐
Transformer自注意力,长距离依赖NLP、CV(ViT)、多模态、大模型
混合架构多种网络组合图文、跨模态任务

各类型核心要点

FNN(前馈神经网络)

信息单向:输入 → 隐藏 → 输出。代表是 MLP,所有复杂网络的基础组件。适合表格数据的回归/分类。

CNN(卷积神经网络)

通过卷积核滑动提取局部特征,权值共享与平移不变性是关键。代表:LeNet、AlexNet、ResNet、EfficientNet。

RNN / LSTM / GRU

带记忆的序列网络。原始 RNN 因梯度消失记不住长依赖,LSTM/GRU 通过门控解决。在 Transformer 之后地位下降,但在嵌入式与流式场景仍有应用。

AE / VAE

  • AE:编码器将输入压缩到低维潜空间,解码器还原;用于压缩、去噪、异常检测
  • VAE:在潜空间引入概率分布约束,可生成连续样本,是扩散模型之前的主流生成方法之一

GAN

生成器造假、判别器辨真,对抗训练直至生成器以假乱真。代表:StyleGAN、Pix2Pix、CycleGAN。痛点:训练不稳定、模式崩溃。

GNN(图神经网络)

处理”节点 + 边”结构。每个节点通过聚合邻居信息更新自己的表示。代表:GCN、GAT、GraphSAGE。

Transformer

自注意力允许任意两 token 直接交互,无需循环即可建模长距离依赖。已成为 NLP(BERT、GPT)、CV(ViT、DiT)、多模态(CLIP、Flamingo)、大模型(LLaMA、GPT-4)的统一架构。

混合架构

组合典型任务
CNN + RNN图像字幕生成
CNN + TransformerViT 衍生、视觉语言模型
AE + GAN高保真图像生成
Diffusion + Transformer(DiT)现代图像/视频生成

选型对照

任务推荐
表格分类/回归FNN(MLP)
图像识别、检测CNN、ViT
文本生成、问答、翻译Transformer(GPT/BERT)
短序列、流式LSTM / GRU
图像生成、超分辨率Diffusion / GAN / VAE
社交网络、分子、推荐GNN(GCN/GAT)
数据压缩、去噪、异常检测AE / DAE