还在膜拜英伟达的GPU:谷歌这款芯片比它快出一个数量级

英伟达的GPU一直是业界关注的焦点，如今，谷歌推出一款新的芯片架构——TPU，或将“完爆”GPU。

谷歌上周在论文中表示，在推断任务中，其研发的神经网络推断专用芯片TPU比英伟达的Tesla K80 GPU的平均速度快15-30倍。

虽然近日英伟达 CEO 黄仁勋撰文质疑这一“比较”，因为谷歌并未用英伟达性能更佳的Tesla P40 GPU 与 TPU 对比。但业界大多认为TPU性能更优。昨日，加州大学伯克利分校计算机科学教授David Patterson在博客中指出，TPU比当前的CPU和GPU快出一个数量级。

对于TPU推出的意义，谷歌指出，TPU的高速计算能力是大规模AI（人工智能）实现的基础。

TPU比GPU快出一个数量级谷歌在论文中表示，TPU比GPU性能优化主要在于能耗、效率方面。谷歌举例指出，与目前的GPU相比，TPU每瓦特功耗下的效率是GPU的83倍。这也许正是Patterson教授所称的“快出一个数量级”的表现。

Patterson教授也指出，在同样功耗下TPU相对性能更强。

TPU靠什么战胜GPU？

有分析认为，TPU的性能之所以更优，主要在于其内存大幅增加、对低运算精度的容忍增大。

片外内存访问是 GPU 能效比低的罪魁祸首，谷歌意识到这个问题，并在TPU上大幅改进。TPU 在芯片上使用了高达 24MB 的局部内存，6MB 的累加器内存以及用于与主控处理器进行对接的内存，总共占芯片面积的 37%。相比之下，英伟达同时期的 K80 只有 8MB 的片上内存，因此需要不断地去访问片外 DRAM。

其次，TPU 的高性能还来源于对低运算精度的容忍。研究表明低精度运算带来的算法准确率损失很小，但低精度运算可以用功耗更低、速度更快、占芯片面积更小的运算单元。谷歌的TPU 采用了 8-bit 低精度运算，意味着其每一步操作需要的晶体管更少。在晶体管总容量不变的情况下，每单位时间可以在这些晶体管上运行更多操作。

另外， GPU从存储器中取指令与数据将耗费大量的时间。TPU 没有取命令的动作，而是主处理器提供给它当前的指令，这使得 TPU 能够实现更高的计算效率。

TPU的意义：大规模AI实现的基础对于TPU的意义，谷歌在论文中表示：如果没有高速计算能力，大规模AI实现根本不可能。

业内人士指出，TPU能够以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。相对于 CPU 和 GPU，TPU 的确定性的执行模型能更好地匹配我们的神经网络应用的 99% 的响应时间需求。

当前，AI芯片正成为各大芯片公司争夺的焦点。

去年11月，英特尔和讯飞签署了一个为期是三年的人工智能技术合作框架。英特尔与科大讯飞的技术合作涵盖了深度学习的完整流程，包括数据采集，离线训练，在线预测，采集新数据组等。

英伟达CEO黄仁勋也指出，英伟达基于Pascal的Tesla P40推断加速器，将深度学习推断性能提升了26倍，远超摩尔定律的预测。