英伟达铁幕之后,谷歌AI芯片已成气候
英伟达在聚光灯下狂飙,谷歌却在幕后悄悄造出自己的 AI 基建帝国系统。当别人还在抢 GPU 时,它早已自给自足、闭环生长 —— 闷声干大事,从未如此谷歌。
英伟达明修栈道,谷歌暗渡陈仓。
当你回头一看,谷歌在 AI 基础设施 的优势已经无法阻挡。
这几天,谷歌终于把憋了很久的大招放出来了,CEO 劈柴官宣了自研第七代 TPU Ironwood 正式商用。
这是谷歌第七代 TPU,单颗算力 4614 TFLOPS(FP8 精度),192GB 的 HBM3E 内存,带宽高达 7.37 TB/s。
与上一代 TPU v5p 相比峰值性能提升 10 倍!
对于 Google Cloud 客户,Ironwood 根据工作负载需求提供两种尺寸:256 芯片配置和 9216 芯片配置。
也就是一个 pod 可以最多塞下 9216 个 TPU,总算力达到了惊人的 42.5 ExaFLOPS。
与之相比英伟达目前主推的的 GB300 NVL72 系统只有 0.36 ExaFLOPS。
这就是 Anthropic 直接买了 100 万颗 TPU 的根本原因。
谷歌才是那个真正低调发财的公司,有人总结 AI 价值链上所有公司涉足的领域。
谷歌是 唯一 一家,没有之一,全栈人工智能公司 :数据 → 算法 → 硬件 → 云服务器。
它使用自己的数据来训练自己的算法;这些算法在部署在自己的云上的自己的芯片上运行;然后开发了自己的应用程序。
如果说现在谷歌唯一的弱点,那可能就是「苹果」,准确的说,是客户端设备,手机。
虽然安卓系统是谷歌的,但是偏偏谷歌没有自己的手机(如果手机也有,谷歌称得上地球上最垄断的公司,也许没有之一。)
虽然 Pixel 系列出货量未能排在三星和国产等安卓机前面,但是用过 Pixel 的人都说好。
谷歌 TPU 十年进化
谷歌 TPU,全称张量处理单元(Tensor Processing UnitT),从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。
当英伟达在横向扩展(scale-out)加速器市场占据主导地位时,谷歌已经构建了全球唯一一个专为训练和运行前沿模型而设计的、具有高容错性的超大规模系统。
2013 年,谷歌面临一个关键时刻。
公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将 数据中心的规模翻倍 。
这一预测使 AI 计算不再是一个机遇,而是对运营支出(OpEx)的生存威胁。
尽管谷歌早在 2006 年就考虑过构建专用集成电路(ASIC),但直到 2013 年,这才真正成为一项迫在眉睫的任务。
TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了 15 个月!
TPU v1 于 2015 年在谷歌内部署,并于 2016 年的 Google I/O 大会上公开发布。