mstation:gpu
gpu 卡性能对比
FP32 FP64 性能比较(数据来自 官网和维基)
gpu卡 | FP32(TFLOPS) | FP64(TFLOPS) | 架构 architecture |
---|---|---|---|
3080ti | 34.1 | 0.533 | Ampere |
3090 | 35.58 | 0.556 | Ampere |
4090 | 82.58 | 1.29 | Ada Lovelace |
a100 | 19.5 | 9.7 | Ampere |
a10 | 31.24 | 0.976 | Ampere |
a40 | 37.420 | 1.168 | Ampere |
L40 | 90.516 | 1.414 | Ada Lovelace |
a800 | 19.5 | 9.7 | Ampere |
T400 | Turing | ||
p100 | Pascal |
- FP32:单精度浮点计算能力
- FP64:双精度浮点计算能力
在 GPU 的性能比较中,FP32(单精度浮点运算)通常是更为关键和普遍关注的一个性能指标。
FP32 主要用于深度学习、图形渲染等许多计算密集型任务,
因此在这些领域中,FP32 算力通常被广泛用来评估 GPU 的性能。
而 FP64 主要在科学计算、数值模拟等需要更高精度计算的领域才会被重点关注
对于大多数应用来说,FP32 已经足够满足精度要求,并且可以获得更高的计算效率和更低的功耗。
对于对精度要求极高的应用,例如科学计算、金融模拟等,则需要使用 FP64 来保证计算结果的准确性。
Ada Lovelace 和 Hopper 是同一代架构,只是分别供货给超算领域和消费级市场。
消费级芯片会带有 RT Core,这些处理器在 Data Center 是用不上的。
所以是同一代制程工艺、架构设计,微调衍生出来的2个变种。
显卡架构信息(以每代架构中最强显卡的参数为代表)
计算能力 | 架构 | 发布年代 | Cores/SM | 总 SM 数 | CUDA Cores | L1 Cache (KB) | L2 Cache (KB) |
---|---|---|---|---|---|---|---|
1.0 | Tesla | ||||||
2.0 | Fermi | 2009 | 32 | 16 SM | 512 | 48 | 768 |
3.0 | Kepler | 2012 | 192 | 15 SMX | 2880 | 48 | 1536 |
4.0 | – | ||||||
5.0 | Maxwell | 2014 | 128 | 24 SMM | 3072 | 96 | 2048 |
6.0 | Pascal | 2016 | 64 | 60 SM | 3840 | 64 | 4096 |
7.0 | Volta | 2018 | 64 8 个 Tensor Core | 80 SM | 5120 | 与共享内存共用 128 (最多 96) | 6144 |
7.5 | Turing | 2018 | 64 8 个 Tensor Core | 72 SM | 4608 | 与共享内存共用 128 (最多 96) | 6144 |
8.0 | Ampere | 2020 | 64 4 个 Tensor Core | 108 SM | 6912 | 与共享内存共用 192 (最多 164) | 40960 |
9.0 | Hopper | 2022 | 128 4 个 Tensor Core | 144 SM | 18432 | 与共享内存共用 256 | 61440 |
[补充]:
- 从 Turing 开始出现了半代计算能力的区别,实际上 Turing(7.5) 是 Volta(7.0) 的小改款。(Turing 架构 = Volta 架构 – FP64 + RT Cores)
- 在 Ampere 这一代上也有这种区别,计算能力 8.0 对应最早的企业级显卡核心(GA100),8.6 对应之后的消费级核心(GA102、GA104、GA106、GA107),虽然 8.6 没有获得一个额外的架构命名。
- Hopper 架构上,不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别。
Ampere 常用显卡的可用 SM 数量
显卡型号 | 3060 | 3060Ti | 3070 | 3070Ti | 3080 | 3080Ti | 3090 | 3090Ti |
---|---|---|---|---|---|---|---|---|
SM 数量 | 28 | 38 | 46 | 48 | 68 | 80 | 82 | 84 |
显存 | 12 GB | 8 GB | 8 GB | 8 GB | 10 GB | 12 GB | 24 GB | 24 GB |
参考
https://en.wikipedia.org/wiki/GeForce_30_series
https://en.wikipedia.org/wiki/GeForce_40_series
A100
A10, L40, A40
维基收录 3080ti 3090 4090 a100 规格参数
显卡架构参考
显卡架构 | 参考 |
---|---|
Ada Lovelace | https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture) |
Ampere | https://en.wikipedia.org/wiki/Ampere_(microarchitecture) |
Hopper | https://en.wikipedia.org/wiki/Hopper_(microarchitecture) |
Turing | https://en.wikipedia.org/wiki/Turing_(microarchitecture) |
Volta | https://en.wikipedia.org/wiki/Volta_(microarchitecture) |
mstation/gpu.txt · 最后更改: 2024/10/30 09:27 由 pengge
评论