明略科技(2718.HK)双开源背后的战略逻辑：端侧模型基础设施才是Agentic AI的下一块拼图

速读：HK)双开源背后的战略逻辑：端侧模型基础设施才是AgenticAI的下一块拼图明略科技(2718.。 HK)双开源背后的战略逻辑：端侧模型基础设施才是AgenticAI的下一块拼图_东方财富网。

明略科技(2718.HK)双开源背后的战略逻辑：端侧模型基础设施才是 Agentic AI 的下一块拼图 _ 东方财富网

明略科技(2718.HK)双开源背后的战略逻辑：端侧模型基础设施才是 Agentic AI 的下一块拼图

2026年05月06日 15:36

K图 02718_0

　　2026年3月底，Ollama宣布其Mac版本的底层推理引擎从沿用多年的llama.cpp切换为苹果的MLX框架。这则消息在开发者社区引发了远超技术更新本身的讨论——它意味着，Mac正在从"连接云端的终端"变成"独立运行AI的工作站"。

　　数字佐证了这一趋势的力度。在搭载M5芯片的Mac上，切换到MLX后，prefill速度提升超过57%，生成速度接近翻倍，部分场景下TTFT（首个token等待时间）缩短至原先的四分之一。当Apple Silicon的统一内存架构遇上为其专门设计的推理框架，端侧AI的性能瓶颈正在被重新定义。

　　但一个更细节的问题随之浮出水面。MLX目前支持的量化模式W4A16和W8A16只对模型"权重"进行了压缩，计算过程中的"激活值"仍以FP16格式运行。这意味着，苹果从M5芯片开始在每个GPU核心中嵌入的Neural Accelerator——一个专为INT8运算设计的硬件加速单元——并没有被充分调动。硬件能力到位了，软件层还差一块拼图。

　　端侧推理的"水电煤"：Cider做了什么

　　就在这个时间节点，明略科技以两个开源项目给出了回应。其中，Cider推理加速SDK直接切入MLX生态尚未覆盖的激活量化领域，补齐了W8A8和W4A8两条量化路径。

　　技术层面，Cider的思路很直接：既然Apple Silicon有INT8硬件加速能力，那就把激活值也量化到INT8，让Neural Accelerator真正被用起来。实测数据显示，在W8A8模式下，Cider单算子速度比原生MLX提升1.4-1.9倍；在W4A8模式下，权重内存占用降低50%的同时，性能同样获得显著提升。对于视觉语言模型（VLM），Qwen3-VL-4B的预填充速度提升17%-22%，更小的Qwen3-VL-2B提升幅度达到57%-61%。

　　更值得关注的是精度表现。在W8A8量化模式下，模型的困惑度（PPL）与FP16原始精度相比差距仅为0.03——几乎可以忽略不计。这意味着加速不以牺牲模型能力为代价。

　　从工程化角度，Cider选择了极简接入路径：一行代码即可完成模型转换，兼容Qwen、Llama、Mistral等主流开源模型架构。此外，Cider还在实验性地探索ANE（Apple Neural Engine）与GPU的异构协同推理，在M4芯片上已实现额外3%-17%的加速。

　　从"跑得动"到"跑得好用"：Mano-P的端侧Agent验证

　　如果说Cider解决的是"端侧模型如何跑得更快"的问题，那么同步开源的Mano-P则回答了一个更根本的疑问：端侧模型能不能真的干活？

　　Mano-P是明略科技自研的端侧GUI-VLA智能体模型。它通过纯视觉方式理解并操作图形界面——不依赖API对接，不局限于浏览器场景，可以直接操作桌面软件、网页系统及复杂图形化工作流。在Apple Silicon设备上，Mano-P以4.3GB峰值内存即可运行，M4 Pro上预填充速度达到476 tokens/s，解码速度76 tokens/s。

　　这组数据的意义在于：它证明了一个足够强的端侧模型，配合底层推理框架的优化，完全可以在消费级硬件上实现"数据不出设备"的 AI智能体操作。这不是实验室里的论文结论，而是一个可复现的工程方案。

　　为什么是"基础设施"而不是"应用"

　　明略科技此次选择开源的不是一个成品应用，而是一套基础设施——推理加速框架加上端侧模型。这个选择背后有清晰的战略逻辑。

　　Agentic AI的落地正在从"云端调用大模型"向"端云协同"演进。在这个过程中，端侧需要自己的推理基础设施：足够快的推理引擎、足够小但足够强的模型、以及足够低的部署门槛。谁先把这层基础设施铺好并形成生态，谁就在Agentic AI的下一阶段占据有利位置。

　　从明略科技的业务版图来看，这并非一个孤立的技术动作。其Mano模型家族已经在OSWorld榜单专用模型领域排名全球第一（72B版，58.2%准确率），此次4B端侧版的开源，将"跑分能力"转化为"可部署能力"，打通了从研究到落地的最后一公里。

　　对于整个行业而言，端侧模型基础设施的成熟，意味着Agentic AI不再是一个必须依赖高昂云端算力的方案。当一台Mac mini就能运行完整的 AI智能体工作流，AI Agent的部署成本和隐私边界都将被重新划定。这或许正是明略科技选择在此时开源的深层考量——不只是贡献代码，而是定义端侧AI生态中一层关键的基础设施标准。

（文章来源：界面新闻）

主题：战略逻辑|下一块拼图|双开源背后|新股