mstation:gpu
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
| mstation:gpu [2024/02/27 14:13] – [参考] pengge | mstation:gpu [2025/10/20 12:02] (当前版本) – [表] pengge | ||
|---|---|---|---|
| 行 3: | 行 3: | ||
| ===== FP32 FP64 性能比较(数据来自 官网和维基) ===== | ===== FP32 FP64 性能比较(数据来自 官网和维基) ===== | ||
| - | ^ gpu卡 | + | ^ gpu卡 |
| - | | 3080ti | + | | 3080ti |
| - | | 3090 | 35.58 | 0.556 | Ampere | + | | 3090 | 35.58 | 0.556 | Ampere |
| - | | 4090 | 82.58 | 1.29 | Ada Lovelace | + | | 4090 | 82.58 | 1.29 | Ada Lovelace |
| - | | a100 | 19.5 | 9.7 | Ampere | + | | a100 | 19.5 | 9.7 | Ampere |
| - | | a10 | + | | a10 |
| - | | L40 | + | | a40 | 37.420 |
| - | | a800 | | + | | L40 |
| + | | a800 | 19.5 | 9.7 | Ampere | ||
| + | | T400 | 2.17 | 0.068 | Turing | ||
| + | | p100 | 9.3 | 4.7 | Pascal | ||
| + | | H200 | 149.0 | 74.5 | Hopper | ||
| + | | L20 | 119.2 | 3.73 | Ada Lovelace | ||
| + | | V100 | 14.0 | 7.0 | Volta | sm_70 | cuda11.6/ | ||
| + | | H100 | 134.0 | 67.0 | Hopper | ||
| + | | 5090 | ||
| + | | RTX 5880 Ada | 69.3 | 1.08 | Ada Lovelace | ||
| + | | A5000 | 27.8 | 0.866 | Ampere | ||
| + | |||
| + | <code bash> | ||
| + | nvcc -arch=sm_70 my_kernel.cu -o my_program | ||
| + | nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program | ||
| + | nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu | ||
| + | |||
| + | 若需代码在多种 GPU 上运行,可通过 PTX 兼容性 或 多架构编译: | ||
| + | # 为多架构生成代码(例如支持 Ampere 和 Hopper) | ||
| + | nvcc -gencode arch=compute_80, | ||
| + | | ||
| + | | ||
| + | </ | ||
| - FP32:单精度浮点计算能力 | - FP32:单精度浮点计算能力 | ||
| 行 24: | 行 47: | ||
| > | > | ||
| > 对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。 | > 对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。 | ||
| + | |||
| + | |||
| + | >Ada Lovelace 和 Hopper 是同一代架构,只是分别供货给超算领域和消费级市场。 | ||
| + | > | ||
| + | > | ||
| + | > | ||
| + | > | ||
| + | > | ||
| + | |||
| + | ===== 显卡架构信息(以每代架构中最强显卡的参数为代表) ===== | ||
| + | |||
| + | ^ 计算能力 | ||
| + | | 1.0 | Tesla | | ||
| + | | 2.0 | Fermi | 2009 | 32 | 16 SM | 512 | 48 | 768 | | ||
| + | | 3.0 | Kepler | ||
| + | | 4.0 | – | | ||
| + | | 5.0 | Maxwell | ||
| + | | 6.0 | Pascal | ||
| + | | 7.0 | Volta | 2018 | 64\\ 8 个 Tensor Core | 80 SM | 5120 | 与共享内存共用 128\\ (最多 96) | 6144 | | ||
| + | | 7.5 | Turing | ||
| + | | 8.0 | Ampere | ||
| + | | 9.0 | Hopper | ||
| + | |||
| + | <WRAP note> | ||
| + | **[补充]:** | ||
| + | * 从 Turing 开始出现了半代计算能力的区别,实际上 Turing(7.5) 是 Volta(7.0) 的小改款。(Turing 架构 = Volta 架构 – FP64 + RT Cores) | ||
| + | * 在 Ampere 这一代上也有这种区别,计算能力 8.0 对应最早的企业级显卡核心(GA100),8.6 对应之后的消费级核心(GA102、GA104、GA106、GA107),虽然 8.6 没有获得一个额外的架构命名。 | ||
| + | * Hopper 架构上,不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别。 | ||
| + | </ | ||
| + | |||
| + | ===== Ampere 常用显卡的可用 SM 数量 ===== | ||
| + | |||
| + | ^ 显卡型号 | ||
| + | ^ SM 数量 | ||
| + | ^ 显存 | ||
| ===== 参考 ===== | ===== 参考 ===== | ||
| 行 31: | 行 89: | ||
| >官方 a100 规格参数 Specifications | >官方 a100 规格参数 Specifications | ||
| + | > | ||
| + | > | ||
| + | >官方 a800 规格参数 Specifications | ||
| > | > | ||
| 行 42: | 行 103: | ||
| - | > | + | >- https:// |
| + | >- https:// | ||
| > | > | ||
| >官方 4090 规格参数 Specs | >官方 4090 规格参数 Specs | ||
| 行 53: | 行 115: | ||
| > | > | ||
| > | > | ||
| - | > | + | > |
| > | > | ||
| > | > | ||
| 行 61: | 行 123: | ||
| > | > | ||
| > Nvidia 显卡架构详解 | > Nvidia 显卡架构详解 | ||
| + | |||
| + | > https:// | ||
| + | > | ||
| + | > p100 v100 a100 h100 b100 对比 | ||
| + | ===== 显卡架构参考 ===== | ||
| + | |||
| + | ^ 显卡架构 | ||
| + | | Ada Lovelace | ||
| + | | Ampere | ||
| + | | Hopper | ||
| + | | Turing | ||
| + | | Volta | https:// | ||
| + | |||
mstation/gpu.1709014392.txt.gz · 最后更改: 2024/02/27 14:13 由 pengge
