mstation:gpu

gpu卡	FP32(TFLOPS)	FP64(TFLOPS)	架构 architecture	计算能力	PWmat版本
1080ti	11.34	0.354	Pascal	sm_61	cuda11.6/oneapi
3080ti	34.1	0.533	Ampere	sm_86	cuda11.6/oneapi
3090	35.58	0.556	Ampere	sm_86	cuda11.6/oneapi
4090	82.58	1.29	Ada Lovelace	sm_89	cuda12.1/oneapi
a100	19.5	9.7	Ampere	sm_80	cuda11.6/oneapi
a10	31.24	0.976	Ampere	sm_86	cuda11.6/oneapi
a40	37.420	1.168	Ampere	sm_86	cuda11.6/oneapi
L40	90.516	1.414	Ada Lovelace	sm_89	cuda12.1/oneapi
a800	19.5	9.7	Ampere	sm_80	cuda11.6/oneapi
T400	2.17	0.068	Turing	sm_75	cuda11.6/oneapi
p100	9.3	4.7	Pascal	sm_60	cuda11.6/oneapi
H200	149.0	74.5	Hopper	sm_90	cuda12.1/oneapi
L20	119.2	3.73	Ada Lovelace	sm_89	cuda12.1/oneapi
V100	14.0	7.0	Volta	sm_70	cuda11.6/oneapi
H100	134.0	67.0	Hopper	sm_90	cuda12.1/oneapi
5090	104.8	1.637	Blackwell	sm_120	cuda12.1/oneapi
RTX 5880 Ada	69.3	1.08	Ada Lovelace	sm_89	cuda12.1/oneapi
A5000	27.8	0.866	Ampere	sm_86	cuda11.6/oneapi
6000/6000D			Blackwell	sm_120	cuda12.1/oneapi

nvcc -arch=sm_70 my_kernel.cu -o my_program
nvcc -arch=sm_80 --ptxas-options=-O3 my_kernel.cu -o my_program
nvcc -arch=sm_90 --ptxas-options=-O3 -o my_program my_kernel.cu
 
若需代码在多种 GPU 上运行，可通过 PTX 兼容性 或 多架构编译：
# 为多架构生成代码（例如支持 Ampere 和 Hopper）
nvcc -gencode arch=compute_80,code=sm_80 \
     -gencode arch=compute_90,code=sm_90 \
     my_kernel.cu -o my_program

FP32：单精度浮点计算能力
FP64：双精度浮点计算能力

在 GPU 的性能比较中，FP32（单精度浮点运算）通常是更为关键和普遍关注的一个性能指标。
FP32 主要用于深度学习、图形渲染等许多计算密集型任务，
因此在这些领域中，FP32 算力通常被广泛用来评估 GPU 的性能。

而 FP64 主要在科学计算、数值模拟等需要更高精度计算的领域才会被重点关注

对于大多数应用来说，FP32 已经足够满足精度要求，并且可以获得更高的计算效率和更低的功耗。

对于对精度要求极高的应用，例如科学计算、金融模拟等，则需要使用 FP64 来保证计算结果的准确性。

Ada Lovelace 和 Hopper 是同一代架构，只是分别供货给超算领域和消费级市场。

消费级芯片会带有 RT Core，这些处理器在 Data Center 是用不上的。

所以是同一代制程工艺、架构设计，微调衍生出来的2个变种。

计算能力	架构	发布年代	Cores/SM	总 SM 数	CUDA Cores	L1 Cache (KB)	L2 Cache (KB)
1.0	Tesla
2.0	Fermi	2009	32	16 SM	512	48	768
3.0	Kepler	2012	192	15 SMX	2880	48	1536
4.0	–
5.0	Maxwell	2014	128	24 SMM	3072	96	2048
6.0	Pascal	2016	64	60 SM	3840	64	4096
7.0	Volta	2018	64 8 个 Tensor Core	80 SM	5120	与共享内存共用 128 （最多 96）	6144
7.5	Turing	2018	64 8 个 Tensor Core	72 SM	4608	与共享内存共用 128 （最多 96）	6144
8.0	Ampere	2020	64 4 个 Tensor Core	108 SM	6912	与共享内存共用 192 （最多 164）	40960
9.0	Hopper	2022	128 4 个 Tensor Core	144 SM	18432	与共享内存共用 256	61440

[补充]：

从 Turing 开始出现了半代计算能力的区别，实际上 Turing(7.5) 是 Volta(7.0) 的小改款。（Turing 架构 = Volta 架构 – FP64 + RT Cores）
在 Ampere 这一代上也有这种区别，计算能力 8.0 对应最早的企业级显卡核心（GA100），8.6 对应之后的消费级核心（GA102、GA104、GA106、GA107），虽然 8.6 没有获得一个额外的架构命名。
Hopper 架构上，不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别。

显卡型号	3060	3060Ti	3070	3070Ti	3080	3080Ti	3090	3090Ti
SM 数量	28	38	46	48	68	80	82	84
显存	12 GB	8 GB	8 GB	8 GB	10 GB	12 GB	24 GB	24 GB

https://www.nvidia.com/en-us/data-center/a100/

官方 a100 规格参数 Specifications

https://www.nvidia.com/en-us/design-visualization/a800/

官方 a800 规格参数 Specifications

https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3080-3080ti/

官方 3080ti 规格参数 Specs

https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3090-3090ti/

官方 3090 规格参数 Specs

- https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4090/
- https://en.wikipedia.org/wiki/GeForce_40_series

官方 4090 规格参数 Specs

https://en.wikipedia.org/wiki/GeForce_30_series

https://en.wikipedia.org/wiki/GeForce_40_series

A100

A10, L40, A40

维基收录 3080ti 3090 4090 a100 规格参数

https://www.twisted-meadows.com/nvidia-gpu-architecture/

Nvidia 显卡架构详解

https://en.wikipedia.org/wiki/Volta_(microarchitecture)#Products

p100 v100 a100 h100 b100 对比

显卡架构	参考
Ada Lovelace	https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture)
Ampere	https://en.wikipedia.org/wiki/Ampere_(microarchitecture)
Hopper	https://en.wikipedia.org/wiki/Hopper_(microarchitecture)
Turing	https://en.wikipedia.org/wiki/Turing_(microarchitecture)
Volta	https://en.wikipedia.org/wiki/Volta_(microarchitecture)

目录

gpu 卡性能对比

FP32 FP64 性能比较(数据来自官网和维基)

显卡架构信息（以每代架构中最强显卡的参数为代表）

Ampere 常用显卡的可用 SM 数量

参考

显卡架构参考

目录

gpu 卡性能对比

FP32 FP64 性能比较(数据来自 官网和维基)

显卡架构信息（以每代架构中最强显卡的参数为代表）

Ampere 常用显卡的可用 SM 数量

参考

显卡架构参考

FP32 FP64 性能比较(数据来自官网和维基)