| gpu卡 | FP32(TFLOPS) | FP64(TFLOPS) | 架构 architecture | 架构代号 | PWmat版本 |
|---|---|---|---|---|---|
| 3080ti | 34.1 | 0.533 | Ampere | sm_86 | cuda11.6/oneapi |
| 3090 | 35.58 | 0.556 | Ampere | sm_86 | cuda11.6/oneapi |
| 4090 | 82.58 | 1.29 | Ada Lovelace | sm_89 | cuda12.1/oneapi |
| a100 | 19.5 | 9.7 | Ampere | sm_80 | cuda11.6/oneapi |
| a10 | 31.24 | 0.976 | Ampere | sm_86 | cuda11.6/oneapi |
| a40 | 37.420 | 1.168 | Ampere | sm_86 | cuda11.6/oneapi |
| L40 | 90.516 | 1.414 | Ada Lovelace | sm_89 | cuda12.1/oneapi |
| a800 | 19.5 | 9.7 | Ampere | sm_80 | cuda11.6/oneapi |
| T400 | 2.17 | 0.068 | Turing | sm_75 | cuda11.6/oneapi |
| p100 | 9.3 | 4.7 | Pascal | sm_60 | cuda11.6/oneapi |
| H200 | 149.0 | 74.5 | Hopper | sm_90 | cuda12.1/oneapi |
| L20 | 119.2 | 3.73 | Ada Lovelace | sm_89 | cuda12.1/oneapi |
| V100 | 14.0 | 7.0 | Volta | sm_70 | cuda11.6/oneapi |
| H100 | 134.0 | 67.0 | Hopper | sm_90 | cuda12.1/oneapi |
| 5090 | |||||
| RTX 5880 Ada | 69.3 | 1.08 | Ada Lovelace | sm_89 | cuda12.1/oneapi |
| A5000 | 27.8 | 0.866 | Ampere | sm_86 | cuda11.6/oneapi |
nvcc -arch=sm_70 my_kernel.cu -o my_program nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu 若需代码在多种 GPU 上运行,可通过 PTX 兼容性 或 多架构编译: # 为多架构生成代码(例如支持 Ampere 和 Hopper) nvcc -gencode arch=compute_80,code=sm_80 \ -gencode arch=compute_90,code=sm_90 \ my_kernel.cu -o my_program
在 GPU 的性能比较中,FP32(单精度浮点运算)通常是更为关键和普遍关注的一个性能指标。
FP32 主要用于深度学习、图形渲染等许多计算密集型任务,
因此在这些领域中,FP32 算力通常被广泛用来评估 GPU 的性能。
而 FP64 主要在科学计算、数值模拟等需要更高精度计算的领域才会被重点关注
对于大多数应用来说,FP32 已经足够满足精度要求,并且可以获得更高的计算效率和更低的功耗。
对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。
Ada Lovelace 和 Hopper 是同一代架构,只是分别供货给超算领域和消费级市场。
消费级芯片会带有 RT Core,这些处理器在 Data Center 是用不上的。
所以是同一代制程工艺、架构设计,微调衍生出来的2个变种。
| 计算能力 | 架构 | 发布年代 | Cores/SM | 总 SM 数 | CUDA Cores | L1 Cache (KB) | L2 Cache (KB) |
|---|---|---|---|---|---|---|---|
| 1.0 | Tesla | ||||||
| 2.0 | Fermi | 2009 | 32 | 16 SM | 512 | 48 | 768 |
| 3.0 | Kepler | 2012 | 192 | 15 SMX | 2880 | 48 | 1536 |
| 4.0 | – | ||||||
| 5.0 | Maxwell | 2014 | 128 | 24 SMM | 3072 | 96 | 2048 |
| 6.0 | Pascal | 2016 | 64 | 60 SM | 3840 | 64 | 4096 |
| 7.0 | Volta | 2018 | 64 8 个 Tensor Core | 80 SM | 5120 | 与共享内存共用 128 (最多 96) | 6144 |
| 7.5 | Turing | 2018 | 64 8 个 Tensor Core | 72 SM | 4608 | 与共享内存共用 128 (最多 96) | 6144 |
| 8.0 | Ampere | 2020 | 64 4 个 Tensor Core | 108 SM | 6912 | 与共享内存共用 192 (最多 164) | 40960 |
| 9.0 | Hopper | 2022 | 128 4 个 Tensor Core | 144 SM | 18432 | 与共享内存共用 256 | 61440 |
[补充]:
| 显卡型号 | 3060 | 3060Ti | 3070 | 3070Ti | 3080 | 3080Ti | 3090 | 3090Ti |
|---|---|---|---|---|---|---|---|---|
| SM 数量 | 28 | 38 | 46 | 48 | 68 | 80 | 82 | 84 |
| 显存 | 12 GB | 8 GB | 8 GB | 8 GB | 10 GB | 12 GB | 24 GB | 24 GB |
https://en.wikipedia.org/wiki/GeForce_30_series
https://en.wikipedia.org/wiki/GeForce_40_series
A100
A10, L40, A40
维基收录 3080ti 3090 4090 a100 规格参数
| 显卡架构 | 参考 |
|---|---|
| Ada Lovelace | https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture) |
| Ampere | https://en.wikipedia.org/wiki/Ampere_(microarchitecture) |
| Hopper | https://en.wikipedia.org/wiki/Hopper_(microarchitecture) |
| Turing | https://en.wikipedia.org/wiki/Turing_(microarchitecture) |
| Volta | https://en.wikipedia.org/wiki/Volta_(microarchitecture) |