OpenAI硬件负责人的闭门分享,向我们揭示了为什么硬件「终点」仍是智能手机
摘要
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」
作者|张勇毅
编辑| 靖宇
昨天,当 OpenAI 做智能手机的具体规格与供应链爆料发布时,我第一反应不是「他们要做手机了」,而是「OpenAI 最终也不得不踏出这一步」,同时想起两周前 Richard Ho 在 Stanford 那场交流。
Richard Ho 是 OpenAI 的硬件负责人,从 Google 做 TPU 出来。
Richard Ho |图片来源:Synopsys 那场在 IEEE 内部组织的交流上,他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看,整条路径其实已经被讲得很清楚—— 只是当时没有一个具体的产品形态来锚定它 。
OpenAI 做手机这件事,在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推,你会发现这是一条早就铺好的路。
毕竟对于所有模型厂商来讲,手机都只是终点之一,不是起点。
01
模型的下一次「跃迁」,诞生自硬件
那场交流的核心,是关于 OpenAI 为什么必须自己做硬件。
Richard Ho 反复强调的一句话是:「真正的限制不再只是模型,而是算力、能耗、成本、延迟,是整个系统。」
听起来像一句普通的技术陈述。但放在 OpenAI 的位置上,这句话的分量完全不一样——它意味着这家公司 已经不把自己单纯当作一家模型公司 。
GPU 是为通用并行计算设计,在推荐系统、传统的并行任务,跑得很好。
但面对今天主流的 Transformer、agent、长上下文推理,其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同,整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是:「GPU 把我们带到了今天,但它并不是为这种(AI 负载任务)而设计的。」
这句话背后的含义其实是: 继续依赖 NVIDIA 所设定好的硬件路径,OpenAI 永远没办法把模型推到下一个量级 。不是说 GPU 不能用,而是说在能耗、成本、效率这些维度上,OpenAI 无法一直被动地接受外部的硬件节奏。
所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」,而是 OpenAI 想重新拿回 AI 运行的底层控制权。
如果只看媒体报道,你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接:「 我们不是在做一颗芯片,而是在做一个系统 。」
这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像,但更强调端到端的控制。
进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的,但「 两年时间已经从空白走到 tape-out(芯片设计完成交付流片生产) 」,并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据,而是「已经在真实环境里 work 的东西」。
两年从零到 tape-out 是个什么概念?传统芯片公司从架构到流片,五到七年很正常。Google TPU 第一代用了大约三年,而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事:要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队(这是事实),要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持(这也部分是事实)。
但更值得说的是 OpenAI 和硬件供应商之间的关系边界。
「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制,紧接着补了一句——「他们并不看到完整的架构。」他还专门解释,「很多时候他们只看到一部分,但看不到整体是怎么拼起来的。」
这句话其实透露了 OpenAI 自身的一个判断: 架构层和工程层是两件事,前者必须完全握在自己手里 。Broadcom 提供的是模块和制造能力,系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。
Richard Ho 提到,外界看到的模型是几个月发布一次,但内部其实是一条连续的 pipeline——「 我们能看到接下来 6 到 9 个月模型会怎么变 」。
这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片,而是在为还没出现的模型「预备」设计。
具体到细节上,这种「向前看」会影响很多决定:模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high;网络带宽要扩到多少;新的 compression algorithm 出现会不会改变数据流的形状;inference 和 training 的比例正在快速变化(推理负载越来越重),这对硬件的要求又是另一套。
Richard Ho 把这一点总结成一句话:
「 你必须为模型将要去的方向设计硬件,而不是为今天的模型 。」
这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU,而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看,OpenAI 做芯片更像 Google 做 TPU,而不是像 NVIDIA 做 H100。
但即便如此,硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢,所以芯片红利结束」这个论断。他的判断是:单颗芯片确实在变慢,但 整个系统层面还远远没有被优化好 。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体:现在高速 copper 互联在高带宽下只能支持大约 2 米的距离,这对数据中心布局是非常大的限制。
简单说一句:OpenAI 在做的事情不是把一颗芯片做得更快,而是把整个 AI 计算系统重新优化一遍。
手机这件事,是这个系统的最末端。
02
「手机不是为 agent 设计的」
回到手机。
Richard Ho 在那场交流上有一句话,今天回头看几乎就是 OpenAI 做手机的全部理由——「 手机不是为 agent 设计的 」。
「今天的手机交互是 app-based、session-based 的,你打开一个 app,做一件事,关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作,它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」
这种交互范式,直接等同于在说:今天的 iOS 和 Android 都不是为它设计的。
这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「 未来不是 cloud-only,也不是 edge-only,而是两者结合 」——个人上下文、隐私数据、低延迟交互必须在设备端,复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」,它必须在操作系统层有完整权限。