明略科技(2718.HK)双开源背后的战略逻辑:端侧模型基础设施才是Agentic AI的下一块拼图
明略科技(2718.HK)双开源背后的战略逻辑:端侧模型基础设施才是 Agentic AI 的下一块拼图
2026年05月06日 15:36

2026年3月底,Ollama宣布其Mac版本的底层推理引擎从沿用多年的llama.cpp切换为 苹果 的MLX框架。这则消息在开发者社区引发了远超技术更新本身的讨论——它意味着,Mac正在从"连接云端的终端"变成"独立运行AI的工作站"。
数字佐证了这一趋势的力度。在搭载M5芯片的Mac上,切换到MLX后,prefill速度提升超过57%,生成速度接近翻倍,部分场景下TTFT(首个token等待时间)缩短至原先的四分之一。当Apple Silicon的统一内存架构遇上为其专门设计的推理框架,端侧AI的性能瓶颈正在被重新定义。
但一个更细节的问题随之浮出水面。MLX目前支持的量化模式W4A16和W8A16只对模型"权重"进行了压缩,计算过程中的"激活值"仍以FP16格式运行。这意味着, 苹果 从M5芯片开始在每个GPU核心中嵌入的Neural Accelerator——一个专为INT8运算设计的硬件加速单元——并没有被充分调动。硬件能力到位了,软件层还差一块拼图。
端侧推理的"水电煤":Cider做了什么
就在这个时间节点,明略科技以两个开源项目给出了回应。其中,Cider推理加速SDK直接切入MLX生态尚未覆盖的激活量化领域,补齐了W8A8和W4A8两条量化路径。
技术层面,Cider的思路很直接:既然Apple Silicon有INT8硬件加速能力,那就把激活值也量化到INT8,让Neural Accelerator真正被用起来。实测数据显示,在W8A8模式下,Cider单算子速度比原生MLX提升1.4-1.9倍;在W4A8模式下,权重内存占用降低50%的同时,性能同样获得显著提升。对于视觉语言模型(VLM),Qwen3-VL-4B的预填充速度提升17%-22%,更小的Qwen3-VL-2B提升幅度达到57%-61%。
更值得关注的是精度表现。在W8A8量化模式下,模型的困惑度(PPL)与FP16原始精度相比差距仅为0.03——几乎可以忽略不计。这意味着加速不以牺牲模型能力为代价。
从工程化角度,Cider选择了极简接入路径:一行代码即可完成模型转换,兼容Qwen、Llama、Mistral等主流开源模型架构。此外,Cider还在实验性地探索ANE(Apple Neural Engine)与GPU的异构协同推理,在M4芯片上已实现额外3%-17%的加速。
从"跑得动"到"跑得好用":Mano-P的端侧Agent验证
如果说Cider解决的是"端侧模型如何跑得更快"的问题,那么同步开源的Mano-P则回答了一个更根本的疑问:端侧模型能不能真的干活?
Mano-P是明略科技自研的端侧GUI-VLA智能体模型。它通过纯视觉方式理解并操作图形界面——不依赖API对接,不局限于浏览器场景,可以直接操作桌面软件、网页系统及复杂图形化工作流。在Apple Silicon设备上,Mano-P以4.3GB峰值内存即可运行,M4 Pro上预填充速度达到476 tokens/s,解码速度76 tokens/s。
这组数据的意义在于:它证明了一个足够强的端侧模型,配合底层推理框架的优化,完全可以在消费级硬件上实现"数据不出设备"的 AI智能体 操作。这不是实验室里的论文结论,而是一个可复现的工程方案。
为什么是"基础设施"而不是"应用"
明略科技此次选择开源的不是一个成品应用,而是一套基础设施——推理加速框架加上端侧模型。这个选择背后有清晰的战略逻辑。
Agentic AI的落地正在从"云端调用大模型"向"端云协同"演进。在这个过程中,端侧需要自己的推理基础设施:足够快的推理引擎、足够小但足够强的模型、以及足够低的部署门槛。谁先把这层基础设施铺好并形成生态,谁就在Agentic AI的下一阶段占据有利位置。
从明略科技的业务版图来看,这并非一个孤立的技术动作。其Mano模型家族已经在OSWorld榜单专用模型领域排名全球第一(72B版,58.2%准确率),此次4B端侧版的开源,将"跑分能力"转化为"可部署能力",打通了从研究到落地的最后一公里。
对于整个行业而言,端侧模型基础设施的成熟,意味着Agentic AI不再是一个必须依赖高昂云端算力的方案。当一台Mac mini就能运行完整的 AI智能体 工作流,AI Agent的部署成本和隐私边界都将被重新划定。这或许正是明略科技选择在此时开源的深层考量——不只是贡献代码,而是定义端侧AI生态中一层关键的基础设施标准。
(文章来源:界面新闻)