用户工具

站点工具


mstation:gpu

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
mstation:gpu [2024/02/27 14:09] – [表] penggemstation:gpu [2025/10/20 12:02] (当前版本) – [表] pengge
行 3: 行 3:
 ===== FP32 FP64 性能比较(数据来自 官网和维基) ===== ===== FP32 FP64 性能比较(数据来自 官网和维基) =====
  
-^ gpu卡   ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  | 架构          +^ gpu卡         ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  ^ 架构 architecture  | 架构代号  | PWmat版本        
-| 3080ti  | 34.1          | 0.533         | Ampere        +| 3080ti        | 34.1          | 0.533         | Ampere             | sm_86     | cuda11.6/oneapi  
-| 3090    | 35.58         | 0.556         | Ampere        +| 3090          | 35.58         | 0.556         | Ampere             | sm_86     | cuda11.6/oneapi  
-| 4090    | 82.58         | 1.29          | Ada Lovelace +| 4090          | 82.58         | 1.29          | Ada Lovelace       | sm_89     | cuda12.1/oneapi  | 
-| a100    | 19.5          | 9.7           | Ampere        +| a100          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi  
-| a10     | 31.24         | 0.976         | Ampere        | +| a10           | 31.24         | 0.976         | Ampere             | sm_86     | cuda11.6/oneapi 
-| L40     | 90.516        | 1.414         | Ada Lovelace +| a40           | 37.420        | 1.168         | Ampere             | sm_86     | cuda11.6/oneapi  
-| a800    |                             | Ampere        |+| L40           | 90.516        | 1.414         | Ada Lovelace       | sm_89     | cuda12.1/oneapi  | 
 +| a800          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi 
 +| T400          | 2.17          | 0.068         | Turing             | sm_75     | cuda11.6/oneapi 
 +| p100          | 9.3           | 4.7           | Pascal             | sm_60     | cuda11.6/oneapi 
 +| H200          | 149.0         | 74.5          | Hopper             | sm_90     | cuda12.1/oneapi 
 +| L20           | 119.2         | 3.73          | Ada Lovelace       | sm_89     | cuda12.1/oneapi 
 +| V100          | 14.0          | 7.0           | Volta              | sm_70     | cuda11.6/oneapi 
 +| H100          | 134.0         | 67.0          | Hopper             | sm_90     | cuda12.1/oneapi 
 +| 5090          |                             |                    |                            | 
 +| RTX 5880 Ada  | 69.3          | 1.08          | Ada Lovelace       | sm_89     | cuda12.1/oneapi 
 +| A5000         | 27.8          | 0.866         | Ampere             sm_86     | cuda11.6/oneapi 
 + 
 +<code bash> 
 +nvcc -arch=sm_70 my_kernel.cu -o my_program 
 +nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program 
 +nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu 
 + 
 +若需代码在多种 GPU 上运行,可通过 PTX 兼容性 或 多架构编译: 
 +# 为多架构生成代码(例如支持 Ampere 和 Hopper) 
 +nvcc -gencode arch=compute_80,code=sm_80 \ 
 +     -gencode arch=compute_90,code=sm_90 \ 
 +     my_kernel.cu -o my_program 
 +</code> 
  
   - FP32:单精度浮点计算能力   - FP32:单精度浮点计算能力
行 24: 行 47:
 > >
 > 对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。 > 对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。
 +
 +
 +>Ada Lovelace 和 Hopper 是同一代架构,只是分别供货给超算领域和消费级市场。
 +>
 +>消费级芯片会带有 RT Core,这些处理器在 Data Center 是用不上的。
 +>
 +>所以是同一代制程工艺、架构设计,微调衍生出来的2个变种。
 +>
 +
 +===== 显卡架构信息(以每代架构中最强显卡的参数为代表) =====
 +
 +^ 计算能力  ^ 架构     ^ 发布年代  ^ Cores/SM                ^ 总 SM 数  ^ CUDA\\ Cores  ^ L1 Cache\\ (KB)                    ^ L2 Cache\\ (KB)  ^
 +| 1.0       | Tesla    |                                                                                              |                  |
 +| 2.0       | Fermi    | 2009      | 32                      | 16 SM     | 512           | 48                                 | 768              |
 +| 3.0       | Kepler   | 2012      | 192                     | 15 SMX    | 2880          | 48                                 | 1536             |
 +| 4.0       | –        |                                                                                              |                  |
 +| 5.0       | Maxwell  | 2014      | 128                     | 24 SMM    | 3072          | 96                                 | 2048             |
 +| 6.0       | Pascal   | 2016      | 64                      | 60 SM     | 3840          | 64                                 | 4096             |
 +| 7.0       | Volta    | 2018      | 64\\ 8 个 Tensor Core   | 80 SM     | 5120          | 与共享内存共用 128\\ (最多 96)   | 6144             |
 +| 7.5       | Turing   | 2018      | 64\\ 8 个 Tensor Core   | 72 SM     | 4608          | 与共享内存共用 128\\ (最多 96)   | 6144             |
 +| 8.0       | Ampere   | 2020      | 64\\ 4 个 Tensor Core   | 108 SM    | 6912          | 与共享内存共用 192\\ (最多 164)  | 40960            |
 +| 9.0       | Hopper   | 2022      | 128\\ 4 个 Tensor Core  | 144 SM    | 18432         | 与共享内存共用 256                 | 61440            |
 +
 +<WRAP note>
 +**[补充]:**
 +  * 从 Turing 开始出现了半代计算能力的区别,实际上 Turing(7.5) 是 Volta(7.0) 的小改款。(Turing 架构 = Volta 架构 – FP64 + RT Cores)
 +  * 在 Ampere 这一代上也有这种区别,计算能力 8.0 对应最早的企业级显卡核心(GA100),8.6 对应之后的消费级核心(GA102、GA104、GA106、GA107),虽然 8.6 没有获得一个额外的架构命名。
 +  * Hopper 架构上,不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别。
 +</WRAP>
 +
 +===== Ampere 常用显卡的可用 SM 数量 =====
 +
 +^ 显卡型号   ^ 3060    ^ 3060Ti   ^ 3070   ^ 3070Ti   ^ 3080    ^ 3080Ti   ^ 3090    ^ 3090Ti  ^
 +^ SM 数量    | 28      | 38       | 46     | 48       | 68      | 80       | 82      | 84      |
 +^ 显存       | 12 GB   | 8 GB     | 8 GB   | 8 GB     | 10 GB   | 12 GB    | 24 GB   | 24 GB   |
  
 ===== 参考 ===== ===== 参考 =====
行 31: 行 89:
 >官方 a100 规格参数 Specifications >官方 a100 规格参数 Specifications
  
 +>https://www.nvidia.com/en-us/design-visualization/a800/
 +>
 +>官方 a800 规格参数 Specifications
  
 >https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3080-3080ti/ >https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3080-3080ti/
行 42: 行 103:
  
  
->https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4090/+>https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4090/ 
 +>- https://en.wikipedia.org/wiki/GeForce_40_series
 > >
 >官方 4090 规格参数 Specs >官方 4090 规格参数 Specs
行 53: 行 115:
 >[[https://en.wikipedia.org/wiki/Ampere_(microarchitecture)#A100_accelerator_and_DGX_A100|A100]] >[[https://en.wikipedia.org/wiki/Ampere_(microarchitecture)#A100_accelerator_and_DGX_A100|A100]]
 > >
->[[https://en.wikipedia.org/wiki/Nvidia_Tesla|A10, L40]]+>[[https://en.wikipedia.org/wiki/Nvidia_Tesla|A10, L40, A40]]
 > >
 >维基收录 3080ti  3090  4090  a100 规格参数 >维基收录 3080ti  3090  4090  a100 规格参数
 +
 +
 +> https://www.twisted-meadows.com/nvidia-gpu-architecture/
 +>
 +> Nvidia 显卡架构详解
 +
 +> https://en.wikipedia.org/wiki/Volta_(microarchitecture)#Products
 +>
 +> p100 v100 a100 h100 b100 对比
 +===== 显卡架构参考 =====
 +
 +^ 显卡架构      ^ 参考                                                            ^
 +| Ada Lovelace  | https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture)  |
 +| Ampere        | https://en.wikipedia.org/wiki/Ampere_(microarchitecture)        |
 +| Hopper        | https://en.wikipedia.org/wiki/Hopper_(microarchitecture)        |
 +| Turing        | https://en.wikipedia.org/wiki/Turing_(microarchitecture)        |
 +| Volta         | https://en.wikipedia.org/wiki/Volta_(microarchitecture)         |
 +
mstation/gpu.1709014172.txt.gz · 最后更改: 2024/02/27 14:09 由 pengge