用户工具

站点工具


mstation:gpu

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
mstation:gpu [2024/10/30 09:27] – [参考] penggemstation:gpu [2025/10/20 12:02] (当前版本) – [表] pengge
行 3: 行 3:
 ===== FP32 FP64 性能比较(数据来自 官网和维基) ===== ===== FP32 FP64 性能比较(数据来自 官网和维基) =====
  
-^ gpu卡   ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  ^ 架构 architecture  ^ +^ gpu卡         ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  ^ 架构 architecture  | 架构代号  | PWmat版本        | 
-| 3080ti  | 34.1          | 0.533         | Ampere             | +| 3080ti        | 34.1          | 0.533         | Ampere             | sm_86     | cuda11.6/oneapi  
-| 3090    | 35.58         | 0.556         | Ampere             | +| 3090          | 35.58         | 0.556         | Ampere             | sm_86     | cuda11.6/oneapi  
-| 4090    | 82.58         | 1.29          | Ada Lovelace       | +| 4090          | 82.58         | 1.29          | Ada Lovelace       | sm_89     | cuda12.1/oneapi  
-| a100    | 19.5          | 9.7           | Ampere             | +| a100          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi  
-| a10     | 31.24         | 0.976         | Ampere             | +| a10           | 31.24         | 0.976         | Ampere             | sm_86     | cuda11.6/oneapi  
-| a40     | 37.420        | 1.168         | Ampere             | +| a40           | 37.420        | 1.168         | Ampere             | sm_86     | cuda11.6/oneapi  
-| L40     | 90.516        | 1.414         | Ada Lovelace       | +| L40           | 90.516        | 1.414         | Ada Lovelace       | sm_89     | cuda12.1/oneapi  
-| a800    | 19.5          | 9.7           | Ampere             | +| a800          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi  
-| T400                                | Turing             | +| T400          2.17          0.068         | Turing             | sm_75     | cuda11.6/oneapi  
-| p100    |                             Pascal             |+| p100          | 9.3           | 4.7           | Pascal             | sm_60     | cuda11.6/oneapi 
 +| H200          | 149.0         | 74.5          | Hopper             | sm_90     | cuda12.1/oneapi 
 +| L20           | 119.2         | 3.73          | Ada Lovelace       | sm_89     | cuda12.1/oneapi 
 +| V100          | 14.0          | 7.0           | Volta              | sm_70     | cuda11.6/oneapi 
 +| H100          | 134.0         | 67.0          | Hopper             | sm_90     | cuda12.1/oneapi 
 +| 5090          |                                                                           | 
 +| RTX 5880 Ada  | 69.3          | 1.08          | Ada Lovelace       | sm_89     | cuda12.1/oneapi 
 +| A5000         | 27.8          | 0.866         | Ampere             | sm_86     | cuda11.6/oneapi 
 + 
 +<code bash> 
 +nvcc -arch=sm_70 my_kernel.cu -o my_program 
 +nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program 
 +nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu 
 + 
 +若需代码在多种 GPU 上运行,可通过 PTX 兼容性 或 多架构编译: 
 +# 为多架构生成代码(例如支持 Ampere 和 Hopper) 
 +nvcc -gencode arch=compute_80,code=sm_80 \ 
 +     -gencode arch=compute_90,code=sm_90 \ 
 +     my_kernel.cu -o my_program 
 +</code> 
  
   - FP32:单精度浮点计算能力   - FP32:单精度浮点计算能力
mstation/gpu.1730251625.txt.gz · 最后更改: 2024/10/30 09:27 由 pengge