还在膜拜英伟达的GPU:谷歌这款芯片比它快出一个数量级

英伟达的GPU一直是业界关注的焦点,如今,谷歌推出一款新的芯片架构——TPU,或将“完爆”GPU。

谷歌上周在论文中表示,在推断任务中,其研发的神经网络推断专用芯片TPU比英伟达的Tesla K80 GPU的平均速度快15-30倍。

虽然近日英伟达 CEO 黄仁勋撰文质疑这一“比较”,因为谷歌并未用英伟达性能更佳的Tesla P40 GPU 与 TPU 对比。但业界大多认为TPU性能更优。昨日,加州大学伯克利分校计算机科学教授David Patterson在博客中指出,TPU比当前的CPU和GPU快出一个数量级。

对于TPU推出的意义,谷歌指出,TPU的高速计算能力是大规模AI(人工智能)实现的基础。

TPU比GPU快出一个数量级谷歌在论文中表示,TPU比GPU性能优化主要在于能耗、效率方面。谷歌举例指出,与目前的GPU相比,TPU每瓦特功耗下的效率是GPU的83倍。这也许正是Patterson教授所称的“快出一个数量级”的表现。

Patterson教授也指出,在同样功耗下TPU相对性能更强。

TPU靠什么战胜GPU?

有分析认为,TPU的性能之所以更优,主要在于其内存大幅增加、对低运算精度的容忍增大。

片外内存访问是 GPU 能效比低的罪魁祸首,谷歌意识到这个问题,并在TPU上大幅改进。TPU 在芯片上使用了高达 24MB 的局部内存,6MB 的累加器内存以及用于与主控处理器进行对接的内存,总共占芯片面积的 37%。相比之下,英伟达同时期的 K80 只有 8MB 的片上内存,因此需要不断地去访问片外 DRAM。

其次,TPU 的高性能还来源于对低运算精度的容忍。研究表明低精度运算带来的算法准确率损失很小,但低精度运算可以用功耗更低、速度更快、占芯片面积更小的运算单元。谷歌的TPU 采用了 8-bit 低精度运算,意味着其每一步操作需要的晶体管更少。在晶体管总容量不变的情况下,每单位时间可以在这些晶体管上运行更多操作。

另外, GPU从存储器中取指令与数据将耗费大量的时间。TPU 没有取命令的动作,而是主处理器提供给它当前的指令,这使得 TPU 能够实现更高的计算效率。

TPU的意义:大规模AI实现的基础对于TPU的意义,谷歌在论文中表示:如果没有高速计算能力,大规模AI实现根本不可能。

业内人士指出,TPU能够以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。相对于 CPU 和 GPU,TPU 的确定性的执行模型能更好地匹配我们的神经网络应用的 99% 的响应时间需求。

当前,AI芯片正成为各大芯片公司争夺的焦点。

去年11月,英特尔和讯飞签署了一个为期是三年的人工智能技术合作框架。英特尔与科大讯飞的技术合作涵盖了深度学习的完整流程,包括数据采集,离线训练,在线预测,采集新数据组等。

英伟达CEO黄仁勋也指出,英伟达基于Pascal的Tesla P40推断加速器,将深度学习推断性能提升了26倍,远超摩尔定律的预测。

英伟达的GPU一直是业界关注的焦点,如今,谷歌推出一款新的芯片架构——TPU,或将“完爆”GPU。

谷歌上周在论文中表示,在推断任务中,其研发的神经网络推断专用芯片TPU比英伟达的Tesla K80 GPU的平均速度快15-30倍。

虽然近日英伟达 CEO 黄仁勋撰文质疑这一“比较”,因为谷歌并未用英伟达性能更佳的Tesla P40 GPU 与 TPU 对比。但业界大多认为TPU性能更优。昨日,加州大学伯克利分校计算机科学教授David Patterson在博客中指出,TPU比当前的CPU和GPU快出一个数量级。

对于TPU推出的意义,谷歌指出,TPU的高速计算能力是大规模AI(人工智能)实现的基础。

TPU比GPU快出一个数量级谷歌在论文中表示,TPU比GPU性能优化主要在于能耗、效率方面。谷歌举例指出,与目前的GPU相比,TPU每瓦特功耗下的效率是GPU的83倍。这也许正是Patterson教授所称的“快出一个数量级”的表现。

Patterson教授也指出,在同样功耗下TPU相对性能更强。

TPU靠什么战胜GPU?

有分析认为,TPU的性能之所以更优,主要在于其内存大幅增加、对低运算精度的容忍增大。

片外内存访问是 GPU 能效比低的罪魁祸首,谷歌意识到这个问题,并在TPU上大幅改进。TPU 在芯片上使用了高达 24MB 的局部内存,6MB 的累加器内存以及用于与主控处理器进行对接的内存,总共占芯片面积的 37%。相比之下,英伟达同时期的 K80 只有 8MB 的片上内存,因此需要不断地去访问片外 DRAM。

其次,TPU 的高性能还来源于对低运算精度的容忍。研究表明低精度运算带来的算法准确率损失很小,但低精度运算可以用功耗更低、速度更快、占芯片面积更小的运算单元。谷歌的TPU 采用了 8-bit 低精度运算,意味着其每一步操作需要的晶体管更少。在晶体管总容量不变的情况下,每单位时间可以在这些晶体管上运行更多操作。

另外, GPU从存储器中取指令与数据将耗费大量的时间。TPU 没有取命令的动作,而是主处理器提供给它当前的指令,这使得 TPU 能够实现更高的计算效率。

TPU的意义:大规模AI实现的基础对于TPU的意义,谷歌在论文中表示:如果没有高速计算能力,大规模AI实现根本不可能。

业内人士指出,TPU能够以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。相对于 CPU 和 GPU,TPU 的确定性的执行模型能更好地匹配我们的神经网络应用的 99% 的响应时间需求。

当前,AI芯片正成为各大芯片公司争夺的焦点。

去年11月,英特尔和讯飞签署了一个为期是三年的人工智能技术合作框架。英特尔与科大讯飞的技术合作涵盖了深度学习的完整流程,包括数据采集,离线训练,在线预测,采集新数据组等。

英伟达CEO黄仁勋也指出,英伟达基于Pascal的Tesla P40推断加速器,将深度学习推断性能提升了26倍,远超摩尔定律的预测。


相关文章

  • 性能普及浪潮!市场主流四核芯片搜罗
  • 2012年12月22日 02:30 出处:泡泡网 [原创] 作者:白涛 编辑:白涛 查看产品点评 泡泡网平板电脑频道12月22日 现阶段不少用户开始把目光投向了性能更突出的四核平板电脑.远不止于此,一些尚未购物双核平板的用户,更多的选择是直 ...查看


  • 中星微率先量产NPU 人工智能芯片竞赛"各就位"|芯片|人工智能|记者
  • 本报记者 汪传鸿 北京报道 人工智能火热,而NPU作为人工智能核心芯片,无疑是业内焦点.但直至目前,国内外仍未有主流的NPU厂商产生. 在国内市场,中星微电子近日率先推出量产的"NPU"芯片."对于企业而言,实 ...查看


  • 智能手机硬件开发平台对比介绍
  • 智能手机硬件开发平台对比介绍 一.3G概述与智能手机  什么是3G 1. 第三代移动通信技术 2. 包括核心光网络.无线接入网.基站.移动终端的一整套系统 3. 全球三大标准:WCDMA.CDMA2000.TD-SCDMA 4. 相对于第 ...查看


  • 不服跑个分的年代,苹果芯片设计为何秒杀众生
  • [PConline 杂谈]网红王思聪在接受<嘉人>杂志专访时,直言"我交朋友不在乎钱,反正都没我有钱".高处不胜寒大抵如此--不服跑个分,反正都没 A10 高(二哈脸).苹果今年为 iPhone 7 / 7 ...查看


  • 显卡的发展历程
  • 第一代显卡::::VGA Card支持256色显示, 1988年 最早的个人电脑只有IBM 和其它一些竞争者的整机在售,不存在兼容机.组装机一说,所有的电脑配件都不会单独零售,因此一些图形公司(如A TI )都是默默无闻,其产品的唯一出路就 ...查看


  • 发布HC1头戴式电脑等
  • 发布HC1头戴式电脑 最近Motorola Solutions正式对外发布了这个命名为HC1的行动装置.这台行动装置搭载TI 3730 800MHz双核心处理芯片.512MB RAM与512MB的内部储存空间,也可以使用microSD卡扩充 ...查看


  • 未来的智能手机
  • 随着电子技术的不断发展,数码产品越来越贴近人们的生活.10年前手机仅仅作为一个通讯设备出现在人们的面前,但是在网络全球化的今天,手机俨然成为个人的"超级计算机",日益强大的性能和丰富的功能不断地改变着人们手机使用的态度, ...查看


  • 小米供应链战略
  • 重要的蓝色字体标出了,中间的芯片之争可以不要.小强你提炼一下. 据记者不完全统计,目前与小米达成合作的A股上市公司达到9家之多,其中深圳公司占绝大多数.另一方面,自主研发芯片已不可避免地成为小米通往高端品牌的必经之路. 小米总部位于北京朝阳 ...查看


  • 国产手机芯片与外国手机芯片的优劣势都在哪?|手机芯片|国产手机
  • 来源:南方都市报 (原标题:[个论]彭丰运专栏:国内外手机芯片的优劣势) 中国制造 彭丰运专栏 国产手机品牌小米将在2月28日发布它第一款手机芯片,这引发了大家对国产手机芯片的关注,那么当前国产手机芯片与外国手机芯片的优劣势在哪些地方呢? ...查看


热门内容