作者 谢丽
,译者与第一代TPU只能服务于机器学习模型计算不同,谷歌最新的TPU现在既能处理训练也能处理服务。InfoQ年初曾详细介绍过第一代TPU白皮书。
第二代TPU的发布时间与一周前NVIDIA发布Volta的时间高度吻合,后者是一个普通的GPU,针对TensorFlow进行了优化,具备经过严格测试的Tensor Core特性。谷歌没有像第一代TPU发布时那样提供一份与第二代TPU配套的公共白皮书。第一代TPU的白皮书是在TPU发布几个月之后才发布的。所以,可以推测,详细介绍第二代TPU(TPU-2)基准测试数据的白皮书即将到来。理想情况下,其中会包含TPU和竞争对手芯片组配置的测试组合、它们的边界性能以及在它们上面运行的机器学习工作负载类型。和第一代TPU白皮书类似,那会提供有关TPU-2的详细信息。
谷歌提供了一些高级性能指标,据推测,这些指标是以谷歌通过GCP计算引擎提供TPU即服务时使用的TPU物理基础设施配置为基础。一组特定的研究人员和科学家将可以免费使用一个包含1000个云TPU的集群。该免费的TPU基础设施和面向其他所有人的GCP服务可能有一个很大程度的抽象,硬件研究人员或新闻资讯可以在没有白皮书的情况下有一个深入的了解。在性能提升方面,谷歌指出:
……我们的大规模新翻译模型在32个全世界最好的商用GPU上训练了一整天,而1/8个TPU Pod一下午就可以完成这项任务……
TPU-2 Pod包含由多个TPU-2处理器组成的TPU-2板。根据谷歌公告中的零星技术信息以及几张照片,我们可以推测,每个芯片上的闪存可能存在连通性,单个的TPU-2之间可能共享闪存状态。
第二代TPU基础设施提供多达256个芯片,它们连接在一起可以提供11.5千兆次的机器学习运算能力。谷歌接受Alpha版本试用申请,不过,申请表单和研究人员的免费试用表单相同。目前,还不清楚下一代TPU是否会用在类似CloudML这样在GPU上执行模型训练的服务中。不过,该服务不只限于TPU。该GCP特性
让用户可以在竞争对手的芯片(如英特尔的Skylake)或GPU(如Nvidia的Volta)上构建自己的模型,然后将项目迁移到谷歌TPU云上做最后的处理。
对于TPU-2相对于第一代TPU的性能提升,现在还很难做出充分的比较,因为它们的特性集和底层数学操作原语不同。第一代TPU没有使用浮点操作,而是使用一个8位的整数近似地表示浮点数。现在还不知道谷歌是否提供近似方法将浮点运算性能转换成8位整数,用于定量分析的浮点运算估计。
谷歌最新的大规模翻译模型在32个“最好的商业GPU”上需要训练一整天,而1/8个TPU Pod一下午就可以完成这项工作……每块板子的最大峰值吞吐量为每秒45万亿次浮点运算,如上所述,系统板每秒总计180万亿次浮点运算,峰值性能可达11500万亿次。
能够访问闪存以及可以在同样的硬件上提供训练和服务的能力会影响谷歌和其他芯片组生产商的竞争关系,因为AMD的Vega Radeon Instinct GPU加速器既可以直接访问闪存,也可以提供ML训练和服务。
查看英文原文:Second-Generation TPU Offers Both Training and Model Serving, Free Research Tier on GCP
转自 http://www.infoq.com/cn/news/2017/06/second-generation-tpu