TPU、GPU、CPU深度学习平台哪家强？

发布时间：2021-03-23 14:53:58 所属栏目：评论来源：互联网

导读：v2 发布于 2017 年 5 月，它是一款定制的专用集成电路(ASIC)。每个 TPU v2 设备能够在单板上提供 180 TFLOPS 的峰值算力。一年之后 TPU v3 发布，它将峰值性能提高到了 420 TFLOPS。云 TPU 于 2018 年 2 月开始提供学术访问权限。这篇论文中使用的就是云 TPU

v2 发布于 2017 年 5 月，它是一款定制的专用集成电路(ASIC)。每个 TPU v2 设备能够在单板上提供 180 TFLOPS 的峰值算力。一年之后 TPU v3 发布，它将峰值性能提高到了 420 TFLOPS。云 TPU 于 2018 年 2 月开始提供学术访问权限。这篇论文中使用的就是云 TPU。

英伟达的 Tesla V100 Tensor Core 是一块具有 Volta 架构的 GPU，于 2017 年发布。

CPU 已经被证明在某些特定的用例中会更加适合训练，因此它也是一个重要的平台，应该被包含在比较内容中。

这项研究表明，没有一个平台在所有的场景中是最佳的。基于它们各自的特点，不同的平台能够为不同的模型提供优势。此外，由于深度学习模型的快速改进和变化，基准测试也必须持续更新并经常进行。

最近的基准测试似乎都局限于任意的几个 DNN 模型。只盯着著名的 ResNet50 和 Transformer 等模型可能会得到误导性的结论。例如，Transformer 是一个大型的全连接模型，它在 TPU 上的训练速度比在 GPU 上快了 3.5 倍;但是，关注这一个模型并不能揭示 TPU 在超过 4000 个节点的全连接网络上出现的严重的内存带宽瓶颈。这凸显了为某些模型去过度优化硬件和(或)编译器的风险。

新一代硬件基准测试

为了对最先进的深度学习平台进行基准测试，这篇论文提出了一个用于训练的深度学习模型集合。为了支持广泛和全面的基准测试研究，研究者引入了 ParaDnn 这一参数化的深度学习基准测试组件。ParaDnn 能够无缝地生成数千个参数化的多层模型，这些模型由全连接(FC)模型、卷积神经网络(CNN)以及循环神经网络(RNN)组成。ParaDnn 允许对参数规模在近乎 6 个数量级的模型上进行系统基准测试，这已经超越了现有的基准测试的范围。

研究者将这些参数化模型与 6 个现实模型结合起来，作为广泛模型范围内的独特点，以提供对硬件平台的全面基准测试。表 1 总结了本文中描述的十 14 个观察结果和见解，这些观察和见解可以为未来的特定领域架构、系统和软件设计提供启发信息。

（编辑：鹰潭站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!