CUDA Core 是通用计算单元，Tensor Core 是矩阵运算专用单元，二者协同支撑机器学习全流程计算。

CUDA Core vs CPU Core

SM（流式多处理器）：CUDA Core 以 SM 为单位集群部署，共享内存和指令调度器。

Tensor Core 核心原理

专用设计：硬件固化矩阵乘累加逻辑（D = A×B + C），每个 Tensor Core 完成 4×4×4 矩阵运算。

协同逻辑：Tensor Core 负责矩阵运算，CUDA Core 负责预处理、后处理、激活函数。

型号	CUDA Core	Tensor Core	架构
RTX 4090	16384	512	Ada Lovelace
A100	6912	432	Ampere
H100	16896	1328	Hopper

CUDA Core：

$$\text{TFLOPS} = \frac{\text{核心数} \times \text{频率} \times 2 \times \text{效率系数}}{1000}$$

Tensor Core：

$$\text{TFLOPS} = \text{核心数} \times \text{每周期运算次数} \times \text{频率} \times \text{精度系数}$$