OpenAI硬件负责人的闭门分享，向我们揭示了为什么硬件「终点」仍是智能手机

速读：OpenAI硬件负责人的闭门分享，向我们揭示了为什么硬件「终点」仍是智能手机2026年04月29日19:15极客公园摘要。 RichardHo是OpenAI的硬件负责人，从Google做TPU出来。这句话背后的含义其实是：继续依赖NVIDIA所设定好的硬件路径，OpenAI永远没办法把模型推到下一个量级。 OpenAI能做到两年——背后只能是两件事：要么是从TPU、Apple、Google等公司挖了大批已经成熟的硬件团队（这是事实），要么是Broadcom这类合作方在底层IP上提供了相当大的支持（这也部分是事实）。但即便如此，硬件优化的天花板远没有到。

2026年04月29日 19:15

摘要

「你必须为模型将要去的方向设计硬件，而不是为今天的模型。

「你必须为模型将要去的方向设计硬件，而不是为今天的模型。」

作者｜张勇毅

编辑｜靖宇

昨天，当 OpenAI 做智能手机的具体规格与供应链爆料发布时，我第一反应不是「他们要做手机了」，而是「OpenAI 最终也不得不踏出这一步」，同时想起两周前 Richard Ho 在 Stanford 那场交流。

Richard Ho 是 OpenAI 的硬件负责人，从 Google 做 TPU 出来。

Richard Ho ｜图片来源：Synopsys 那场在 IEEE 内部组织的交流上，他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看，整条路径其实已经被讲得很清楚—— 只是当时没有一个具体的产品形态来锚定它。

OpenAI 做手机这件事，在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推，你会发现这是一条早就铺好的路。

毕竟对于所有模型厂商来讲，手机都只是终点之一，不是起点。

模型的下一次「跃迁」，诞生自硬件

那场交流的核心，是关于 OpenAI 为什么必须自己做硬件。

Richard Ho 反复强调的一句话是：「真正的限制不再只是模型，而是算力、能耗、成本、延迟，是整个系统。」

听起来像一句普通的技术陈述。但放在 OpenAI 的位置上，这句话的分量完全不一样——它意味着这家公司已经不把自己单纯当作一家模型公司。

GPU 是为通用并行计算设计，在推荐系统、传统的并行任务，跑得很好。

但面对今天主流的 Transformer、agent、长上下文推理，其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同，整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是：「GPU 把我们带到了今天，但它并不是为这种（AI 负载任务）而设计的。」

这句话背后的含义其实是：继续依赖 NVIDIA 所设定好的硬件路径，OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用，而是说在能耗、成本、效率这些维度上，OpenAI 无法一直被动地接受外部的硬件节奏。

所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」，而是 OpenAI 想重新拿回 AI 运行的底层控制权。

如果只看媒体报道，你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接：「我们不是在做一颗芯片，而是在做一个系统。」

这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像，但更强调端到端的控制。

进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的，但「两年时间已经从空白走到 tape-out（芯片设计完成交付流片生产）」，并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据，而是「已经在真实环境里 work 的东西」。

两年从零到 tape-out 是个什么概念？传统芯片公司从架构到流片，五到七年很正常。Google TPU 第一代用了大约三年，而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事：要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队（这是事实），要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持（这也部分是事实）。

但更值得说的是 OpenAI 和硬件供应商之间的关系边界。

「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制，紧接着补了一句——「他们并不看到完整的架构。」他还专门解释，「很多时候他们只看到一部分，但看不到整体是怎么拼起来的。」

这句话其实透露了 OpenAI 自身的一个判断：架构层和工程层是两件事，前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力，系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。

Richard Ho 提到，外界看到的模型是几个月发布一次，但内部其实是一条连续的 pipeline——「我们能看到接下来 6 到 9 个月模型会怎么变」。

这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片，而是在为还没出现的模型「预备」设计。

具体到细节上，这种「向前看」会影响很多决定：模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high；网络带宽要扩到多少；新的 compression algorithm 出现会不会改变数据流的形状；inference 和 training 的比例正在快速变化（推理负载越来越重），这对硬件的要求又是另一套。

Richard Ho 把这一点总结成一句话：

「你必须为模型将要去的方向设计硬件，而不是为今天的模型。」

这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU，而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看，OpenAI 做芯片更像 Google 做 TPU，而不是像 NVIDIA 做 H100。

但即便如此，硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢，所以芯片红利结束」这个论断。他的判断是：单颗芯片确实在变慢，但整个系统层面还远远没有被优化好。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体：现在高速 copper 互联在高带宽下只能支持大约 2 米的距离，这对数据中心布局是非常大的限制。

简单说一句：OpenAI 在做的事情不是把一颗芯片做得更快，而是把整个 AI 计算系统重新优化一遍。

手机这件事，是这个系统的最末端。

「手机不是为 agent 设计的」

回到手机。

Richard Ho 在那场交流上有一句话，今天回头看几乎就是 OpenAI 做手机的全部理由——「手机不是为 agent 设计的」。

「今天的手机交互是 app-based、session-based 的，你打开一个 app，做一件事，关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作，它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」

这种交互范式，直接等同于在说：今天的 iOS 和 Android 都不是为它设计的。

这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「未来不是 cloud-only，也不是 edge-only，而是两者结合」——个人上下文、隐私数据、低延迟交互必须在设备端，复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」，它必须在操作系统层有完整权限。

主题：模型|那场交流