差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- mstation:gpu [2024/10/30 09:27] – [参考] pengge
+++ mstation:gpu [2026/06/23 16:58] (当前版本) – [表] pengge
@@ 行 3: / 行 3: @@
 ===== FP32 FP64 性能比较(数据来自 官网和维基) =====
-^ gpu卡   ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  ^ 架构 architecture  ^
+^ gpu卡         ^ FP32(TFLOPS)  ^ FP64(TFLOPS)  ^ 架构 architecture  ^ 计算能力  | PWmat版本        |
-| 3080ti  | 34.1          | 0.533         | Ampere             |
+| 1080ti        | 11.34         | 0.354         | Pascal             | sm_61     | cuda11.6/oneapi  |
-| 3090    | 35.58         | 0.556         | Ampere             |
+| 3080ti        | 34.1          | 0.533         | Ampere             | sm_86     | cuda11.6/oneapi  |
-| 4090    | 82.58         | 1.29          | Ada Lovelace       |
+| 3090          | 35.58         | 0.556         | Ampere             | sm_86     | cuda11.6/oneapi  |
-| a100    | 19.5          | 9.7           | Ampere             |
+| 4090          | 82.58         | 1.29          | Ada Lovelace       | sm_89     | cuda12.1/oneapi  |
-| a10     | 31.24         | 0.976         | Ampere             |
+| a100          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi  |
-| a40     | 37.420        | 1.168         | Ampere             |
+| a10           | 31.24         | 0.976         | Ampere             | sm_86     | cuda11.6/oneapi  |
-| L40     | 90.516        | 1.414         | Ada Lovelace       |
+| a40           | 37.420        | 1.168         | Ampere             | sm_86     | cuda11.6/oneapi  |
-| a800    | 19.5          | 9.7           | Ampere             |
+| L40           | 90.516        | 1.414         | Ada Lovelace       | sm_89     | cuda12.1/oneapi  |
-| T400    |               |               | Turing             |
+| a800          | 19.5          | 9.7           | Ampere             | sm_80     | cuda11.6/oneapi  |
-| p100    |               |               | Pascal             |
+| T400          | 2.17          | 0.068         | Turing             | sm_75     | cuda11.6/oneapi  |
+| p100          | 9.3           | 4.7           | Pascal             | sm_60     | cuda11.6/oneapi  |
+| H200          | 149.0         | 74.5          | Hopper             | sm_90     | cuda12.1/oneapi  |
+| L20           | 119.2         | 3.73          | Ada Lovelace       | sm_89     | cuda12.1/oneapi  |
+| V100          | 14.0          | 7.0           | Volta              | sm_70     | cuda11.6/oneapi  |
+| H100          | 134.0         | 67.0          | Hopper             | sm_90     | cuda12.1/oneapi  |
+| 5090          | 104.8         | 1.637         | Blackwell          | sm_120    | cuda12.1/oneapi  |
+| RTX 5880 Ada  | 69.3          | 1.08          | Ada Lovelace       | sm_89     | cuda12.1/oneapi  |
+| A5000         | 27.8          | 0.866         | Ampere             | sm_86     | cuda11.6/oneapi  |
+| 6000/6000D    |               |               | Blackwell          | sm_120    | cuda12.1/oneapi  |
+<code bash>
+nvcc -arch=sm_70 my_kernel.cu -o my_program
+nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program
+nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu
+若需代码在多种 GPU 上运行，可通过 PTX 兼容性 或 多架构编译：
+# 为多架构生成代码（例如支持 Ampere 和 Hopper）
+nvcc -gencode arch=compute_80,code=sm_80 \
+     -gencode arch=compute_90,code=sm_90 \
+     my_kernel.cu -o my_program
+</code>
   - FP32：单精度浮点计算能力