全球Agent PC元年，国产AI PC凭什么「抢跑」？

速读：第一是足够的本地算力，因为Agent要同时处理多个模型调用和推理，参数规模直奔百亿级。算力需求的增长速度远超芯片迭代的速度：芯片更新一代大约需要两年，而现在的AI应用和多模态大模型，几个月就会迎来一次大的变化。在满足35B模型本地运行的前提下，M50的芯片功耗控制在10W左右，整板不到15W。第二条是安全保密，涉及隐私和敏感数据的场景，必须本地处理； Agent的工作性质决定了它离不开数据，而本地算力有一个天然的好处：数据不出端。

2026年06月08日 18:3

端侧算力，

成为Agent时代的入场券。

在刚刚过去的 GTC 台北大会上，黄仁勋说，过去 40 年 PC 的使用方式是打开应用、点击、输入。现在，微软和英伟达要重新发明 PC 。

他展示了一台可以 24 小时运行个人 Agent 的电脑，让大众充分感知到， AI 正在从大语言模型时代进入 Agentic AI 时代。

PC 的角色也在变：从被动等待用户操作的工具，变成能够理解情境、推理规划、调用工具的个人计算中枢。这个变化，被黄仁勋称为自 Windows 95 以来最重要的一次 PC 底层重构。

几乎在同一时期，国产 AI PC 长城 N90 Pro 正式发布。这台 AI PC 和黄仁勋展示的 Agent Computer 定位相似，同样以 Agent 为设计原点，同样在轻薄机身内实现了端侧大模型的本地流畅运行。

两条技术路线同时推进，指向同一个结论：端侧算力，是 Agent 时代的入场券。

那么在具体解法上，国产方案的解法，在算力供给、经济账和安全边界这三个维度上，到底有何不同？

重新 “ 发明 ”PC ，

Agent 原生需要什么？

黄仁勋将 Agent Computer 拆解为三个必要条件。

第一是足够的本地算力，因为 Agent 要同时处理多个模型调用和推理，参数规模直奔百亿级。第二是安全沙盒，确保 Agent 在受保护环境中运行，不能随意存取整机资源。第三是 Agent 运行时，也就是能够理解用户意图、拆解任务、调用工具的中间层软件。

这三个条件之所以必要，是因为 Agent 的工作方式与传统软件完全不同。传统软件的执行路径是线性的：用户点击一个按钮，软件执行一个功能，然后结束。

Agent 的运作则是循环式的：它接收一个模糊的指令，自己拆解成多个步骤，调用不同工具，根据中间结果调整下一步行动，直到任务完成。这个过程中，每一次推理都需要算力支持，每一次工具调用都需要权限管控，每一个步骤的转换都需要在运行中调度。

三个条件中，行业最先考虑突破的还是算力。

2024 年，微软提出 Copilot+PC 标准的时候只要求 40 TOPS ，当时业内普遍认为足够用了，但两年时间过去，这个判断已经被推翻。从 OpenClaw 的桌面自动化到智慧会议助手， AI 大模型从聊天工具变成了实际的生产力工具。一次任务需要多次推理，参数小了根本不够用。行业现在普遍认为， 35B 及以上的参数模型才算入门。

算力需求的增长速度远超芯片迭代的速度：芯片更新一代大约需要两年，而现在的 AI 应用和多模态大模型，几个月就会迎来一次大的变化。

节奏差异带来的影响，已经反映在了产业链上，业界 Top 企业认为当前大约 70%-80% 的 AI 算力是用在训练上的， 20%-30% 用在推理上，但未来这个比例会倒过来。来自 TrendForce 的数据也显示，北美五大云服务商 2026 年的 AI 训练算力预计增长 56% ，而推理算力将暴增 122% 。

算力上去了，功耗就成了新问题。

传统方案在算力从几十 TOPS 提升到上百 TOPS 的时候，芯片的功耗和尺寸会线性增长，塞不进轻薄的笔记本。

长城N90 Pro AI PC

长城 N90 Pro 给出的答案是：从需求倒推，先想清楚笔记本需要什么，再去选芯片。

很多 AI 芯片原本为数据中心设计，功耗几百瓦，体积巨大，搬到终端设备之后，散热、续航、噪音都成了麻烦。而长城 N90 Pro 所采用的 M50 芯片，并不是从服务器方案下放过来的。

M50 芯片来自后摩智能，这套方案的底层技术关键点是 “ 存算一体 ” 。传统芯片里，计算和存储是分开的，数据要不断在两者之间搬来搬去，搬动本身就要消耗大量能量。存算一体把计算和存储做了深度融合，数据不用再长途搬运，功耗大幅下降。

在满足 35B 模型本地运行的前提下， M50 的芯片功耗控制在 10W 左右，整板不到 15W 。也就是说，它可以直接插在 M.2 接口上工作，和一块普通固态硬盘的安装方式一样。

可以看出，在 Agent Computer 时代，国产方案解决端侧算力问题的方式体现出了明显的 “ 需求导向型 ” 。没有从技术端出发把服务器芯片强行塞进笔记本，而是从终端的真实场景出发，设计一颗专门为笔记本服务的芯片。功耗控制、散热设计、续航平衡，这些工程难题从设计阶段就已经被考虑进去了。

长城选择与后摩智能合作、做深度协同优化，看中的也是他们将存算一体的概念实现量产化的能力。

一颗 10W 功耗的芯片，让一台 1 公斤出头的轻薄本能够本地流畅运行 35B 参数的大模型，过去需要一块 500W 以上的 GPU 和一个全尺寸塔式工作站，现在一台普通笔记本就够了。

算力和功耗一旦 “ 够用了 ” ，下一个必要条件就会聚焦到安全问题上。 Agent 的工作性质决定了它离不开数据，而本地算力有一个天然的好处：数据不出端。

Agent 任务经常涉及会议纪要、个人知识库、办公文档这类敏感信息，一旦涉及云端处理，合规风险就会被放大。端侧运行，数据从输入到输出都在本地闭环，从物理层面实现数据的安全合规，是 Agent Computer 能拥有丰富落地场景的一个先决条件。

黄仁勋也反复强调安全的重要性。全球 AI 产业已经意识到， Agent 要普及，安全是必选项。

2026 年， AI PC 的普及速度，已经可以用充分的市场数据来衡量。 Gartner 预测， 2026 年全球 AI PC 出货量将达到 1.43 亿台，占整个 PC 市场的 55% ，也代表着 AI PC 可能很快就会超越传统 PC 成为选购主流。

中国市场的节奏更快，已经成为拉动市场的核心引擎。 IDC 预测， 2026 年国内尽管整体 PC 出货量预计下滑 0.8% ，但 AI PC 出货量将同比激增 146.5% ，未来五年复合增长率达 58.7% ，到 2029 年有望占据整体 PC 市场 36.5% 的份额。

操作系统层面也在同步跟进支持本地算力。微软 Windows 11 的持续更新已经加入了大量 AI 功能，而国内操作系统厂商如麒麟也开始整合本地 Agent 能力。

从芯片、整机、操作系统，再到 Agent 应用，整条产业链都在为 Agent 原生 PC 做准备。

算一笔 “Token 账 ” ，

端侧算力有多重要？

算力讨论的是能不能跑，而 Token 成本决定的是在哪里跑最划算。

这个问题，在 Agent 大规模落地的 2026 年，也开始重塑整个 AI 计算的商业逻辑。黄仁勋在 3 月的 GTC 2026 上提出了 Token 经济学，他把 Token 服务分成了五个层级：

免费层用来吸引用户；基础层每百万 Token 大约 3 美元，服务普通用户；进阶层每百万 Token 大约 6 美元，提供更大的模型和更快的速度；高速层每百万 Token 大约 45 美元，支持长上下文和深度推理；顶级层每百万 Token 大约 150 美元，面向超长研究任务和关键路径的实时响应。

他算了一笔账：一个研究员每天使用 5000 万 Token ，按每百万 150 美元计算，对一个研究团队来说是可以接受的。

Token 不是一次性买卖，只要 AI 在运行， Token 就在消耗。当 Agent 应用全面铺开时，一个企业级 AI 应用的月度 Token 账单很容易达到几十万美元。

2026 年 3 月，阿里巴巴成立了 Token Hub 事业群， CEO 吴泳铭亲自挂帅，可见 Token 管理确实已经从技术问题变成了商业战略问题。目前，国内多家云服务商也已经或正在调整 API 调用价格，部分模型的百万 Token 定价在短期内出现了多次上涨。

可以预见的是， Token 在成为了一种计费单位以上，还能直接兑换稀缺的商业资源。

端侧算力的商业逻辑，在这里就变得清晰了起来：一次性投入买断 AI PC 硬件，之后的每一次基础推理都不再产生 Token 费用，这个承诺绝对是诱人的。

Agent 会让 Token 的消耗量成倍增长，端侧的零边际成本优势也随之从理论变成了现实。一个经常被引用的对比是：一台高端 AI PC 的硬件成本大约在 1 万到 2 万元人民币，而一个团队如果每天高频调用云端 API ，几个月的 Token 费用可能就会超过这个数字。

行业里有人把本地和云端的推理边界，归纳为三条线。

第一条是模型大小， 120B 及以下参数的模型，本地已经能跑；第二条是安全保密，涉及隐私和敏感数据的场景，必须本地处理；第三条就是商业化，高频使用 Token 的 Agent 场景，本地推理可以彻底避开云端的按量计费。

基于这三条线，一个判断正在形成：未来， 80% 的推理场景会下沉到本地。

这一判断获得了越来越多的证据支持。 Omdia 数据显示，通过端、边、云动态调度工作负载的分布式架构，把 80% 的轻量任务放在本地处理，以每人每天 50 次 AI 请求和 0.003 美元的单次典型成本为基准，可以让 1 亿用户的年度云端成本从 55 亿美元降到 12 亿美元，节省超过 43 亿美元。

对企业和 Agent 应用开发者来说，这是一个忽略不了的数字；对于个人用户来说，端侧算力也进一步降低了使用 AI 的门槛。日常调用 Agent 能力去完成一些成熟的推理工作和稳定流程，不需要再去购买昂贵的云端算力配额，也不用担心月底会收到一张巨额账单。一台设备买回来， AI 能力就已经在本地准备好了。

基于 Token 经济学的逻辑，端侧算力的热度开始得到广泛验证。

比如，英伟达发布了面向 Windows 的 PC 超级芯片 RTX Spark ，戴尔、联想、惠普、华硕、宏碁等整机厂商都参与了首批产品名单，这些产品的一个共同卖点就是：本地运行 AI ，不消耗云端 Token 配额。

国内厂商的动作同样迅速。在这一轮端侧算力的落地中，长城 N90 Pro 的发布是一个实实在在的市场动作。在 M50 这颗已经量产的存算一体芯片的支撑下， 35B 模型在本地流畅运行。这也代表着用户下达的高频 Agent 指令， Token 的消耗完全发生在本地，不产生任何云端调用费用。

主题：算力|调用|黄仁勋|模型|调用工具|端侧算力