- 张芷铭的个人博客

H100的int8 Tensor Core仅对原生int8×int8矩阵乘加速，量化后转回float32会绕开该硬件单元。cuBLASLt是显式调度Tensor Core的解决方案。

核心问题

当前量化流程：

1
embedding(float32) → 量化(int8) → 转回float32 → float32 matmul → L2归一化

关键问题：量化后转回float32，矩阵乘被PyTorch调度到FP32计算单元，完全绕开int8 Tensor Core。

H100 int8 Tensor Core约束

约束	说明
计算类型	必须是原生`int8 × int8`，输出`int32`
内存布局	对stride、alignment、batch size有特定要求
类型转换	任何中间类型转换都会中断硬件加速路径

PyTorch原生接口局限性

问题	说明
通用型设计	兼容所有数据类型，非针对Tensor Core优化
缺乏硬件调度	Tensor Core需通过cuBLASLt、cutlass显式调用
归一化约束	L2归一化需浮点运算，但矩阵乘可用int8加速

cuBLASLt解决方案

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
import torch
import cublaslt

# 量化（保持int8）
def quantize_int8(embedding):
    scale = 127.0 / torch.max(torch.abs(embedding))
    quantized = torch.round(embedding * scale).clip(-127, 127).to(torch.int8)
    return quantized, scale

# 用cuBLASLt做int8矩阵乘
lt_handle = cublaslt.create_handle()
matmul_desc = cublaslt.create_matmul_desc(
    transa='N', transb='N',
    typea=torch.int8, typeb=torch.int8, typec=torch.int32,
    compute_type=cublaslt.ComputeType.INT32
)
int32_result = cublaslt.matmul(lt_handle, quant1, quant2, matmul_desc)

# 转float32并做L2归一化
float_result = int32_result.to(torch.float32) * (scale1 * scale2)
norm = torch.norm(float_result, p=2, dim=-1, keepdim=True)
final_result = float_result / norm

对比总结

方案	矩阵乘单元	加速效果
当前方案（转float32）	FP32计算单元	无Tensor Core加速
cuBLASLt方案	int8 Tensor Core	硬件加速

核心结论：保持int8类型到矩阵乘结束，通过cuBLASLt显式调用Tensor Core，仅在最后做浮点归一化。

核心问题

H100 int8 Tensor Core约束

PyTorch原生接口局限性

cuBLASLt解决方案

对比总结

Comments