寻找AI算力的“第二出口”：高额Token时代下的端侧解法

速读：寻找AI算力的“第二出口”：高额Token时代下的端侧解法寻找AI算力的“第二出口”：高额Token时代下的端侧解法_东方财富网。一个行业共识是：过去企业经营AI的重心集中在训练端，赌的是参数的“涌现”；

寻找AI算力的“第二出口”：高额Token时代下的端侧解法 _ 东方财富网

2026年06月12日 11:09

　　6月1日，微软旗下 GitHub Copilot 宣布全面废除原有的固定月费制，转向基于 Token 实际用量的计费模式。这一举措，被业内普遍视为大模型行业“包月低价时代”终结的信号。

　　在过去两年里，企业沉浸在大模型赋能业务、降低成本的乐观叙事中，但许多企业核算报表时却迎来了残酷的财务审计：实际支出不降反升。这种成本悖论的背后，是 AI 技术正从“一问一答”的对话框，加速跨入全天候自主规划、循环调用的智能体（Agent）时代。当智能体在后台默默进行着全天候的屏幕扫描、日志解析和长文本轮询时，每一次自动化决策都是千万级 Token 的高频吞吐。

　　这场由技术演进引发的“推理成本危机”，正在将大模型的落地推向一个全新的思考节点：当云端的无限智能变成供不起的奢侈品，企业究竟该去哪里寻找算力的“第二出口”？

　　一、消失的“免费续杯”：当AI从吞噬软件转向吞噬账单

　　“市场对智能的需求几乎是无限的，但能源与算力将成为真正的瓶颈。”Coinbase 首席执行官 Brian Armstrong 的这番话，点出了 AI 行业生产力逻辑的剧烈转变。

　　一个行业共识是：过去企业经营 AI 的重心集中在训练端，赌的是参数的“涌现”；而到了2026年，根据 FinOps 基金会发布的最新数据， AI 推理成本在企业 AI 总预算中的占比已经超过八成。大模型正在从“吞噬参数”的研发怪兽，变成“吞噬账单”的推理老虎。

　　Gartner 高级分析师 Arun Chandrasekaran 接受 Business Insider 采访时也一针见血地指出，GitHub Copilot 的案例只是冰山一角。随着高级推理模型和智能体工作流的普及，AI 进入了全天候的运行状态。每一次自动化决策背后，都是千万级 Token 的高频交互，这必然倒逼市场转向更严苛的按量计费模式。

　　在智能体时代，技术可行性不再是唯一的终点，企业投资回报率（ROI）才是真正的试金石。如果推理成本找不到更优的解法，AI 很难真正作为核心生产力嵌入到企业经营的骨干网络中。

　　二、重返边缘：未来八成工作任务或由端侧智能完成

　　面对高昂的云端 API 开销，行业的非共识正在迅速凝聚成新的共识，即逃离单一的云端中心化大模型，走向更具弹性的分布式端侧算力。

　　斯坦福大学的研究数据指出，本地化小模型在真实对话与复杂推理查询中的准确率，已经从前两年的低谷期，大幅提升至如今的 71.3% 左右，与此同时，其运行能耗与单次推理成本则下降了数个数量级。有业内人士推测，未来大约有八成的工作负载将迁移至本地化、开源且成本更低的小模型上，而剩余两成触及智能上限的极限任务，才需要调用前沿的云端 API。

　　这种将算力向端侧收拢的趋势，本质上是企业在经济、安全与效率之间重新寻找平衡点的过程：在经济账上：它将不可控的“云端流量计费”，转变为可预测的“本地硬件资产投入”，大幅消解了企业的 Token 账单焦虑；在安全账上：企业最核心的敏感数据与用户图形界面（GUI）交互流能够完全留在终端处理，从物理底层降低了机密外泄的风险；在效率账上：它规避了网络延迟与带宽吞吐的限制，让设备端的毫秒级实时反馈成为可能。

　　英伟达首席执行官黄仁勋在 GTC 大会上也表达了类似的观点，他认为数以亿计的智能体需要自主观察屏幕并理解图形界面，将这些高频运行的数字员工完全放在云端在工程上并不现实，端侧基础设施正成为智能体规模化落地的温床。

　　走向端侧不是技术的倒退，而是一场算力红利的物理级分流。企业通过押注端侧，正在将数字化成本从“变动费用”重构为“固定资产”。

　　三、从“压缩模型”到“买断智能”：基础设施层的自救

　　当前，全球科技力量正在加速往端侧设备塞入更强劲的“大模型引擎”。在海外，微软与芯片厂商联合强推 Copilot+ PC 标准，在端侧直接消化日常的语义搜索与文本摘要；谷歌则通过 Gemini Nano 将轻量大模型直接内嵌至操作系统底层。放眼国内，腾讯混元推出的极小端侧模型将内存占用压缩至 600MB 以内，智谱 AI 的端侧智能体产品也开始走入智能座舱。

　　在这场拼命将大模型“做小、塞进设备”的红海竞争中，明略科技（2718.HK）则试图走一条面向基础设施层面的范式创新之路。明略科技创始人吴明辉此前曾提出一个行业洞察，他认为把单个大模型做大的集中式路线（Scaling Up）正在逼近其边际效应和成本的天花板，未来的真正解法是分布式协同（Scaling Out）——让多个专精的智能体在端侧与私有网络中进行网状协作。

　　在这个技术判断下，明略科技通过对硬件终端与端侧软件的闭环改造，提供了一种可落地的参考。

　　首先是攻克从“文本对话”到“视觉交互”的门槛。真实的办公场景大多由密密麻麻的图形界面（GUI）构成。明略科技开源自研的 Mano-P 是一款端侧视觉-语言-动作智能体模型，其轻量化版本能够以纯视觉的方式直接理解并操作复杂的桌面软件与网页系统。在 Apple M5和M5 Pro 芯片上实测，其预填充速度表现出色，而峰值内存仅占 4.3GB 左右。这意味着，跨系统、跨 App 的自动化办公操作，完全有可能在员工的本地终端上运行，从而在特定环节让云端大模型的接口费用回归到零。

　　其次是打通端侧推理引擎的底层重构。为了让模型在 Apple Silicon 生态上跑得更省、更高效，明略科技自研了专为 macOS 优化的推理加速 SDK —— Cider。该框架直接切入计算算子与硬件调用机制的底层，在相关量化模式下，其算子运行速度相比部分原生框架表现出明显的加速优势，不仅降低了权重内存占用，也大幅提升了多模态小模型的端侧预填充速度。

　　最终，这种成本与安全的解法，沉淀为组织形态的重构。明略科技打造了 Octo 开源可信智能体协作网络，将其作为组织运转的底层网络。目前在其内部的实际工作流中，正运行着数千个 AI Agent，智能体的数量已经是人类员工的两倍。这不再是一个人机对话的孤立场景，而是多个专精智能体在同一个私有网络中实时协作、互相纠错的分布式架构。

　　未来的解法已经很清晰，当大家还在卷云端参数时，像明略科技这样切入端侧基础设施、倡导“分布式协作（Scaling Out）”的探索，给行业指出了一条非常聪明的活路：高频、具体的日常办公交互，都将由端侧视觉智能体在本地就地消化。

　　这不仅是帮企业省下了昂贵的云端账单，更是一次商业模式的重构——把 AI 从一种“随时在计费、停不下来”的变动成本，变成了企业自己可以握在手里、一次性买断的“数字固定资产”。把智能赋给终端，技术才能真正轻盈、踏实地走入每一家企业的日常。

（文章来源：界面新闻）

主题：“第二出口”|寻找AI算力|基金|端侧解法|新股|美股