张芷铭的个人博客

📅 2026-03-12

GPU 是通用并行处理器，TPU 是 AI 专用 ASIC——前者以通用性换取生态灵活性，后者以牺牲通用性换取 AI 场景极致效率。

核心相似点

维度	共性
计算范式	异构并行，SIMD 底层逻辑
存储层级	寄存器→片上 SRAM→HBM 金字塔
AI 加速	专用矩阵单元（Tensor Core/脉动阵列）
芯片互联	高带宽互联（NVLink/ICI）
软件栈	编译器-运行时-算子库全栈体系
工程设计	数据中心级，SXM 封装，300-700W 功耗

深层次差异

设计原点

GPU	TPU
图形渲染起家，演进为通用并行处理器	深度学习专用 ASIC
通用性优先，兼顾 AI 加速	AI 场景极致优化

计算架构

维度	NVIDIA GPU	Google TPU
核心单元	SIMT 多线程 + Tensor Core	脉动阵列
调度方式	硬件动态调度	编译期静态 VLIW
算力利用率	60%-80%（高 OI 任务）	>90%（静态 AI 负载）
适配性	全场景，分支/动态任务友好	仅规则张量计算高效

存储架构

维度	NVIDIA GPU	Google TPU
缓存管理	硬件自动管理 L1/L2	无硬件缓存，编译器静态管控 SRAM
设计逻辑	通用兼容，自动优化	AI 场景极致复用

精度支持

NVIDIA GPU	Google TPU
FP64/FP32/FP16/BF16/INT8/INT4 全覆盖	仅 AI 精度（BF16/INT8），无 FP64

生态模式

GPU	TPU
开放生态，全场景覆盖	垂直闭源，Google 技术栈专属
消费级到数据中心全系列	仅 Google Cloud 内部

Roofline 模型对应

TPU：将静态 AI 负载的操作强度 OI 推到极致，接近峰值算力屋顶
GPU：全场景负载下保持稳定性能，适配任意 OI 区间

Comments