张芷铭的个人博客

GPU 是通用并行处理器,TPU 是 AI 专用 ASIC——前者以通用性换取生态灵活性,后者以牺牲通用性换取 AI 场景极致效率。

核心相似点

维度共性
计算范式异构并行,SIMD 底层逻辑
存储层级寄存器→片上 SRAM→HBM 金字塔
AI 加速专用矩阵单元(Tensor Core/脉动阵列)
芯片互联高带宽互联(NVLink/ICI)
软件栈编译器-运行时-算子库全栈体系
工程设计数据中心级,SXM 封装,300-700W 功耗

深层次差异

设计原点

GPUTPU
图形渲染起家,演进为通用并行处理器深度学习专用 ASIC
通用性优先,兼顾 AI 加速AI 场景极致优化

计算架构

维度NVIDIA GPUGoogle TPU
核心单元SIMT 多线程 + Tensor Core脉动阵列
调度方式硬件动态调度编译期静态 VLIW
算力利用率60%-80%(高 OI 任务)>90%(静态 AI 负载)
适配性全场景,分支/动态任务友好仅规则张量计算高效

存储架构

维度NVIDIA GPUGoogle TPU
缓存管理硬件自动管理 L1/L2无硬件缓存,编译器静态管控 SRAM
设计逻辑通用兼容,自动优化AI 场景极致复用

精度支持

NVIDIA GPUGoogle TPU
FP64/FP32/FP16/BF16/INT8/INT4 全覆盖仅 AI 精度(BF16/INT8),无 FP64

生态模式

GPUTPU
开放生态,全场景覆盖垂直闭源,Google 技术栈专属
消费级到数据中心全系列仅 Google Cloud 内部

Roofline 模型对应

  • TPU:将静态 AI 负载的操作强度 OI 推到极致,接近峰值算力屋顶
  • GPU:全场景负载下保持稳定性能,适配任意 OI 区间

Comments