ALU(算术逻辑单元)是 CPU/GPU/TPU 的核心运算器件,执行所有算术和逻辑运算,是计算机的"数学与逻辑大脑"。
核心定位
ALU 与控制器、寄存器并称 CPU 三大核心模块。GPU 的流处理器、TPU 的 MXU 本质都是大量并行的 ALU 集群。
数据流:
| |
两大功能
算术运算
| 运算类型 | 示例 | AI/CV 场景 |
|---|---|---|
| 基本算术 | 加减乘除 | 像素归一化、张量缩放 |
| 浮点运算 | 小数运算、平方根 | 权重更新、损失函数计算 |
| 位运算 | 移位、增量 | 分辨率调整、数据压缩 |
逻辑运算
| 运算类型 | 示例 | AI/CV 场景 |
|---|---|---|
| 基本逻辑 | AND、OR、NOT | 图像掩码、特征筛选 |
| 比较运算 | >、<、== | 阈值判断、梯度裁剪 |
| 异或 | XOR | 数据加密、噪声去除 |
工作原理
- 接收输入:操作数(寄存器)+ 运算指令(控制器)
- 电路执行:加法器/乘法器(算术)、与门/或门(逻辑)
- 输出结果:运算结果 + 状态标志(零/进位/溢出)
性能关键:并行度与精度
| 处理器 | ALU 数量 | 特点 |
|---|---|---|
| CPU | 4-64 | 单线程高效 |
| GPU | 数千-数万 | 大规模并行(如 RTX 4090 有 16384 个 CUDA 核心) |
| TPU | 矩阵优化 ALU 阵列 | 专为矩阵乘法设计 |
精度支持:
| 精度 | 位数 | 用途 |
|---|---|---|
| FP32 | 32 位 | 模型训练 |
| FP16/BF16 | 16 位 | 训练/推理加速 |
| INT8 | 8 位 | 边缘推理 |
AI/CV 关联
- 图像卷积:GPU ALU 集群并行计算卷积核与像素的乘加
- 梯度下降:ALU 浮点运算计算偏导数
- 实时推理:ALU 完成预处理、推理、后处理
GPU/TPU 快的本质是靠大量并行 ALU 同时处理数据。
张芷铭的个人博客
Comments