用户54序号 | 时间 | 架构 | 异步数据搬运机制 | 编程模型 & 计算指令 | 数据类型 | 里程碑意义 |
1 | 2017 | Volta (V100) | 无异步机制 ld.*/st.* | Warp 级 wmma 指令 | FP16 | 开启混合精度计算,第 1 代 TensorCore |
2 | 2018 | Turing (T4) | 同 Volta 架构 | 同 Volta 架构 | + int8, int4, int1 | 低精度推理,推动 AI 推理普及 |
3 | 2020.05 | Ampere (A100) | 软件管理的异步拷贝 cp.async.* | Warp 级 mma.sync,可编程 Thread 级数据排布 | + fp32, bf16 | 大幅提升 FP32 训练性能,结构化稀疏 |
4 | 2022.03 | Hopper (H100) | 硬件 TMA cp.async.bulk.tensor.* | thread block 级 wgmma & 硬件 TMA 引入 Transformer 引擎 | + fp8 | 引入FP8和动态精度切换,为 LLM 训练优化 |
5 | 2024.03 | Blackwell (B200) | 专用的 Tensor Memory | 跨SM协作的 UTCMMA.2SM & Tensor Memory 第 2 代 Transformer 引擎 | + fp4, fp6 | 专为万亿参数LLM推理和训练设计 |