GPU 是通用并行处理器,TPU 是 AI 专用 ASIC——前者以通用性换取生态灵活性,后者以牺牲通用性换取 AI 场景极致效率。
核心相似点
| 维度 | 共性 |
|---|
| 计算范式 | 异构并行,SIMD 底层逻辑 |
| 存储层级 | 寄存器→片上 SRAM→HBM 金字塔 |
| AI 加速 | 专用矩阵单元(Tensor Core/脉动阵列) |
| 芯片互联 | 高带宽互联(NVLink/ICI) |
| 软件栈 | 编译器-运行时-算子库全栈体系 |
| 工程设计 | 数据中心级,SXM 封装,300-700W 功耗 |
深层次差异
设计原点
| GPU | TPU |
|---|
| 图形渲染起家,演进为通用并行处理器 | 深度学习专用 ASIC |
| 通用性优先,兼顾 AI 加速 | AI 场景极致优化 |
计算架构
| 维度 | NVIDIA GPU | Google TPU |
|---|
| 核心单元 | SIMT 多线程 + Tensor Core | 脉动阵列 |
| 调度方式 | 硬件动态调度 | 编译期静态 VLIW |
| 算力利用率 | 60%-80%(高 OI 任务) | >90%(静态 AI 负载) |
| 适配性 | 全场景,分支/动态任务友好 | 仅规则张量计算高效 |
存储架构
| 维度 | NVIDIA GPU | Google TPU |
|---|
| 缓存管理 | 硬件自动管理 L1/L2 | 无硬件缓存,编译器静态管控 SRAM |
| 设计逻辑 | 通用兼容,自动优化 | AI 场景极致复用 |
精度支持
| NVIDIA GPU | Google TPU |
|---|
| FP64/FP32/FP16/BF16/INT8/INT4 全覆盖 | 仅 AI 精度(BF16/INT8),无 FP64 |
生态模式
| GPU | TPU |
|---|
| 开放生态,全场景覆盖 | 垂直闭源,Google 技术栈专属 |
| 消费级到数据中心全系列 | 仅 Google Cloud 内部 |
Roofline 模型对应
- TPU:将静态 AI 负载的操作强度 OI 推到极致,接近峰值算力屋顶
- GPU:全场景负载下保持稳定性能,适配任意 OI 区间
Comments