登录

谷歌「被迫」研发的TPU,引发成千芯片与之竞逐


速读:12月12日,谷歌宣布其第六代TPU(张量处理器)。 谷歌「被迫」研发TPU。 谷歌计算和人工智能基础设施副总裁兼总经理MarkLohmeyer表示,谷歌旗下的大模型Gemini2.0正是采用Trillium进行训练,TPU是GoogleCloudAI超级计算(AIHypercomputer)的关键组件,集成了性能优化后的硬件、开放软件、领先的机器学习框架以及灵活的消费模型。 彼时,外界对于谷歌内部的基础设施建设鲜有认知,而事实上,击败棋王李世石的AlphaGo正是由TPU驱动的。
2024年12月20日 17:45

12月12日,谷歌宣布其第六代TPU(张量处理器),Trillium正式上市。

谷歌计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer表示,谷歌旗下的大模型Gemini 2.0正是采用Trillium进行训练, TPU是Google Cloud AI超级计算(AI Hypercomputer)的关键组件,集成了性能优化后的硬件、开放软件、领先的机器学习框架以及灵活的消费模型。

以色列人工智能公司AI21 Labs的CTO Barak Lenz表示,AI21 Labs是自TPU v4以来的长期用户,Trillium在规模、速度和成本效率方面都取得了显著的进步。

在GPU加速一切的人工智能时代,TPU像极外来物种。毕竟在各大搜索软件里输入关键词“TPU”,前几条结果显示的都是材料学科里的聚氨酯。

TPU因谷歌而出现,TPU市场因谷歌而繁荣。为何研发TPU,以及TPU团队的工程师离开谷歌后如何将行业推向繁荣,背后的故事值得讲述。

谷歌「被迫」研发TPU

2009年,Geoffrey Hinton将深度神经网络应用于语音建模,在TIMIT(声学-音素连续语音语料库)上获得当时的最佳成果,深度学习神经网络技术在语音识别领域开始大放异彩。

如果说ChatGPT是当下人工智能浪潮的起点,那AlexNet神经网络架构的出现就是上一个里程碑。

2012年,Alex Krizhesky、Ilya Sutskever和Hinton提出的AlexNet架构,通过使用GPU构建深度学习模型,刷新当时的图像识别世界纪录,并且准确率达到85%,在当年的ImageNet大赛中一举夺冠。

人工智能在语音和图像识别领域的应用引起了谷歌的关注,毕竟这两个领域与谷歌的核心业务,如搜索、地图、照片和翻译等紧密相关。正值谷歌考虑推出面向全球的语音识别功能之际,研究团队发现需要处理的人工智能计算量将超过其现有的算力。

谷歌首席科学家Jeff Dean在采访时称:“当时,我们粗略地估算了数亿人与谷歌的产品对话会产生多少计算量,结果显示谷歌需要部署多一倍的算力才可以满足这样的需求。”

做为大厂,谷歌天生带有傲性。当时,谷歌团队研究了 市面上提供的所有算力解决方案,全部都被高层否决掉。

互联网大爆发使算力需求呈现指数级上升,两个明显的的趋势开始涌现,一是算力使用场景细分化,二是用户对算力的需求不断攀升,传统的通用算力芯片很难再满足一些特定场景的需求。

对专用芯片的投入日益受到关注,开发公司内部的深度学习专用处理器芯片成为谷歌的不二之选。

「出道即巅峰」,首代TPU推理速度为竞品30倍

决策后,是迅速的执行。谷歌挖来惠普智能基础设施实验室高级总监Norm Jouppi、Pacmid的研发负责人Jonathan Ross、Arm架构开发商Calxeda的SoC工程总监Richard Ho以及高通高级工程师Ravi Narayanaswami等一批芯片行业资深从业人员, 而这一批人员也勾勒出当下人工智能芯片领域巨头博弈的核心人才画像。

面对全世界最好的工程师,大厂光环和天价薪资略显廉价,真正让这帮人聚在一起的是开发出满足全球人工智能算力需求的解决方案这一愿景。

谷歌云TPU业务创始人Zak Stone称:“2012年,我创立了一家机器学习创业公司,为了以较低的成本获得算力,我的联合创始人会在网上购买二手的游戏GPU,然后在咖啡桌上搭建服务器, 一旦我们在运行GPU的时候打开了微波炉,电源就会耗尽。 加入谷歌后,我创建了云TPU项目,我知道我们必须把TPU打造成谷歌云的基础设施。”

这也正是谷歌不直接出售TPU,而是通过谷歌云出售TPU算力的原因之一。另一方面,这种做法可以免于搭建供应链和硬件销售团队,节省对陌生业务的投入,同时反哺了谷歌云业务并且提高了硬件产品的保密程度。

从立项到落地,谷歌花了15个月。2015年,谷歌开发出第一代TPU处理器,并开始部署在谷歌的数据中心进行深度学习模型训练。彼时,外界对于谷歌内部的基础设施建设鲜有认知,而事实上,击败棋王李世石的AlphaGo正是由TPU驱动的。

研发TPU的团队负责人Norm Jouppi称:“TPU的设计过程异常迅速,这本身就是一项非凡的成就。更出乎意料的是,首批交付的硅片无需进行任何错误修正以及掩膜的更改,而正在同步进行的还有团队组建,RTL(寄存器传输级)设计专家、验证专家都急需补充,整个工作节奏非常紧张。”

机器学习硬件系统的首席工程师Andy Swing同样表示:“我们原以为TPU的产量不会超过1万颗,但最终生产了超过10万颗,在广告、搜索、语音、AlphaGo甚至自动驾驶等领域被广泛采用。”

TPU跟GPU的核心差异在于,GPU更通用,而TPU则专用于加速机器学习工作负载,是一款ASIC(专用集成电路)芯片。TPU包含数千个乘法累加器,这些累加器直接连接,形成大型物理矩阵,即脉动阵列架构,这样的处理使TPU可以在神经网络计算中实现高计算吞吐量。

Google杰出工程师David Patterson称:“TPU就像海伦(希腊神话中最美的女人), 它的出现引起了成千芯片与之竞逐。”

首款TPU发布后,英特尔便耗资数十亿美元收购了多家芯片公司。阿里巴巴、亚马逊等公司同样开始研发类似产品。TPU重新唤起了人们对计算机架构的关注,后来的几年内,出现了上百家相关初创企业,年均总融资额近20亿美元,新想法层出不穷。

截至目前,谷歌TPU经历了多次迭代,TPU系列产品的性能也实现了指数级的上升。TPU v1的峰值性能为92 TOPS,1TOPS代表处理器每秒钟可进行1万亿次浮点运算,做为同期的竞品,TPU v1的推理速度比英伟达K80 GPU和英特尔Haswell CPU快15到30倍。TPU v4的峰值性能达到1.1PFLOPS,即每秒进行1100万亿次浮点运算,首次突破每秒千万亿次浮点运算的大关,相较于TPU v1,性能提高了将近12倍。最新发布的Trillium性能为TPU v5e的4.7倍,官方称是迄今为止性能最高、最节能的TPU。

主题:谷歌|人工智能|算力|芯片|基础设施