联发科基于谷歌TPU v 7的工作,旨在提升天玑9600的效率
谷歌 即将发布的Ironwood TPU v7 现在已经成为首个可行的专用集成电路(ASIC),能够挑战英伟达的Blackwell GPU处理器.这一重大事件,理所当然地引起了对 谷歌 TPU设计流程及其合作伙伴的广泛关注,其中就包括中国台湾的 联发科 ,后者将其经验转化为定制芯片的实际效率提升,这将惠及即将推出的 天玑9600 SoC。
在谈到 的 天玑9600 之前,先来谈谈围绕谷歌Ironwood TPU v7 的各种争议到底是怎么回事。这里是迄今为止我们对新TPU架构的了解:
双芯片组设计,每个芯片组包含:
向量处理单元(VPU)处理通用的元素级作,这些作对AI模型至关重要,如激活函数(如ReLU)和归一化。
矩阵乘法单元(MXU)处理矩阵乘法运算。
1次张量核采用收缩阵列架构,实现高效的矩阵乘法运算——这些运算构成了人工智能工作负载的骨干,包括神经网络的训练和推断——通过大幅减少HBM所需的内存读写次数。
2次稀疏核,这些工具能够高效处理需要不规则、依赖数据的内存访问的用例,包括处理称为嵌入的超大型数学结构时——这些结构用于将大型类别特征值(如基于单词的词汇表)转换为更小、更密集的向量表示,是许多人工智能作中的关键步骤。
96 GB 高带宽内存(HBM)。
这两个芯片组通过芯片对芯片(D2D)互连连接,其速度是1D芯片间互连(ICI)链路的6倍。
单个TPU机架包含64颗芯片通过ICI连接,每颗芯片提供1.2 TB/s的双向ICI带宽。这种基本的64芯片配置称为立方体(Cube).
多个立方体通过光电路交换机(OCS)网络连接,形成Superpod,由9,216个芯片和144个立方体组成.
至于谷歌新TPU的性能表现,只需查看上述性能数据即可。正如我们最近在一篇专门的文章中提到的,TPU v7 Ironwood 在推理任务中与 NVIDIA GPU 竞争激烈,随着行业逐渐远离大型基础AI模型,新的推理模型正逐渐受到重视。事实上,即将推出的TPU已经在性能接近同等水平的同时,总拥有成本(TCO)更低搭载了NVIDIA最新的显卡。
联发科在谷歌TPU v7 Ironwood中的角色
联发科在设计谷歌TPU v7 Ironwood中发挥了重要作用,现在也有望将这些经验提炼出来,使其即将推出的 天玑9600 芯片更加高效。根据2025年3月陆续发布的报道,谷歌委托联发科设计Ironwood的输入/输出(I/O)模块,以促进处理器与外设之间的通信.这与谷歌近年来与博通密切合作设计整个下一代TPU的战略有所不同。根据瑞银最近的估计,联发科有望通过与谷歌合作开发下一代TPU获得40亿美元收益.
请注意,ASIC和基于移动的应用处理器(AP),如天玑9600,本质上是不同的。这意味着联发科无法将其所有经验转化为天玑9600的可用格式。尽管如此,公司仍可以通过以下方式进行多项迭代改进:
为天玑9600芯片设计更高效的功率门控策略,使AP在未使用时更积极地关闭特定的I/O模块。
提升了天玑9600的电压调节,使AP能够最大限度地消耗量子电压,从而提升芯片的功耗指标。
调整现有的时钟门控策略,以提升下一代芯片的电池续航,争取更激进的功耗预算。
当然,据报道,联发科也在研发自家的人工智能芯片,其TPU经验在这方面将更具参考价值。尽管如此,其移动接入点也可以通过实施上述调整受益。这当然非常重要,因为联发科已经在其移动接入点架构中取消了效率核心.