1 显卡介绍
1.1 NVIDIA TESLA系列介绍
- NVIDIA TESLA V100
NVIDIA Tesla V100采用NVIDIA Volta架构,非常适合为要求极为苛刻的双精度计算工作流程提供加速,并且还是从P100升级的理想路径。该GPU的渲染性能比Tesla P100提升了高达80%,借此可缩短设计周期和上市时间。
Tesla V100的每个GPU均可提供125 teraflops的推理性能,配有8块Tesla V100的单个服务器可实现1 petaflop的计算性能。
- NVIDIA TESLA P40
The Tesla P40能够提供高达2倍的专业图形性能。Tesla P40能够对组织中每个vGPU虚拟化加速图形和计算(NVIDIA CUDA® 和 OpenCL)工作负载。支持多种行业标准的2U服务器。
Tesla P40可提供出色的推理性能、INT8精度和24GB板载内存。
- NVIDIA TESLA T4
NVIDIA Tesla T4的帧缓存高达P4的2倍,性能高达M60的2倍,对于利用NVIDIA Quadro vDWS软件开启高端3D设计和工程工作流程的用户而言,不失为一种理想的解决方案。凭借单插槽、半高外形特性以及低至70瓦的功耗,Tesla T4堪称为每个服务器节点实现最大GPU密度的绝佳之选。
- NVIDIA TESLA P4
Tesla P4可加快任何外扩型服务器的运行速度,能效高达CPU的60倍。
原文链接:https://developer.aliyun.com/article/753454
1.2 常见GPU型号简介
原文链接:https://www.autodl.com/docs/gpu/
2 性能对比
2.1 安培卡(A40等)与老推理卡(T4等)
数据来源:【系统硬件】英伟达安培卡 vs 老推理卡硬件参数对比
2.2 NVIDIA 20xx, 30xx 与 Axx系列
- 半精算力
- 单精算力
数据来源:AutoDL算力排行
- 整体介绍
2.3 NVIDIA TESLA系列
数据来源:NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
3 应用场景
3.1 深度学习训练和推理对比
简单来说,深度学习训练要求高效率计算,深度学习推理除了高效率运算还要求高吞吐量。
- 详见博客:深度学习训练和推理有何不同?
4 云服务器选择
4.0 租用1小时试用性能再做选择
有些平台因为CPU内存或者其他限制,会导致同型号的GPU的性能降低,所以在租用长期服务器之前,应当先租用1-2小时试用性能,比如测试一下模型每运行一个epoch的时间,再选择合适平台(价格性能都还行)长期租用。
4.1 腾讯云与阿里云
这两家云平台是云服务器大户了,可以支持非常高的性能要求,但是价格偏高,建议能够充分利用高性能的高阶“炼丹师”使用,避免因为程序设计问题,导致性能浪费。(如果壕无人性,无脑选也可以)
附上选购指南:阿里云GPU服务器和腾讯云GPU服务器实例规格选择方法
4.2 AutoDL
这家平台优点在于价格亲民,并且是按时计费,还给出了算力排行,可以根据自身需求进行选择。
AutoDL配置CPU较差,CPU与GPU之间的数据传输效率低,如果是仅仅在平台上的服务器直接运行,不能完全利用GPU性能,运算效率相比其他平台的同型号卡比较低。但是如果作为多机多卡的分布式训练,或许可以充分利用GPU的性能(有待测试 todo)。
总结:AutoDL价格便宜,但是作为单一的运行机器,效率较低。
跳转链接:AutoDL
4.2.1 部分3090显卡配置的CPU性能对比
- CPU性能评分网址:https://technical.city/zh/cpu/
每GPU分配 | CPU | 性能评分 | 包日价格 |
---|---|---|---|
CPU:14核 内存:45GB |
Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz | 39.57 | 52 |
CPU:15核 内存:80GB |
AMD EPYC 7543 32-Core Processor | 51.98 | 52 |
CPU:10核 内存:64GB |
Intel(R) Xeon(R) Gold 5218R CPU @ 2.10GH | 23.15 | 48.75 |
CPU:24核 内存:80GB |
AMD EPYC 7642 48-Core Processor | 62.26 | 52 |
4.3 矩池云
待评测