“爱马仕”首次反超“龙虾”,上海两大基座模型调用量挤进全球前五
“爱马仕”首次反超“龙虾”,上海两大基座模型调用量挤进全球前五
2026年05月13日 06:12
5月9日至12日,开源 AI智能体 框架Hermes Agent(别名“爱马仕”)连续三天反超OpenClaw(别名“龙虾”),登顶全球大模型社区OpenRouter(开放路由器)智能体调用量榜首。
“爱马仕”调用量反超“龙虾”。
最新数据显示,“爱马仕”累计词元消耗量超过6.72万亿,接棒OpenClaw掀起全球“养马热”。
目前,OpenRouter平台智能体调用量榜单的前三名智能体分别是“爱马仕”“龙虾”和Kilo Code(基洛代码)。而这三个智能体调用的基座模型,“爱马仕”调用量榜单前五名中,有两个席位被上海基座模型占据,分别来自MiniMax和阶跃星辰;“龙虾”调用量榜单中,上海两大基座模型曾先后登顶,也来自MiniMax和阶跃星辰;Kilo Code调用量榜单的前三名全部由上海基座模型包揽。
业内人士认为,在追求“词元效率”的当下,高兼容性和协同能力,将成为大模型竞争的关键。
“养马”先机
与OpenClaw类似,“爱马仕”也是一款开源 AI智能体 框架,可部署于电脑本地或云端服务器运行,支持用户自主选择大模型和聊天工具进行交互,并能自动独立完成复杂任务。与其他智能体不同的是,“爱马仕”完成复杂任务后,会自动从中提炼出可复用的Skills(技能),在后续使用中按需加载,并根据新的反馈不断自我改进。
这相当于,“爱马仕”是一个会自学的AI助手。
早在“爱马仕”崭露头角时,MiniMax和阶跃星辰便率先接入支持,推出MaxHermes等相关产品,抢占了第一波“养马”先机。如今,这两大基座模型依然位列全球榜单前五,且调用量仍在持续增长中。
“与其说是‘适配’,不如说是上海基模对智能体时代提前作出精准判断。”阶跃星辰首席技术官朱亦博认为,要发挥“爱马仕”等智能体的最大功能,离不开更聪明、响应迅速、成本可控的大模型。最新基模Step 3.5 Flash恰好具备推理速度快、工具调用能力强、胜任复杂长链条任务等优势,兼顾成本和效能,把推理速度和智能水平做到最佳。
MiniMax的策略也颇为相似。MiniMax产品负责人认为,长时间稳定运行、高频工具调用和复杂指令遵循是智能体共同的基础需求,也是最新模型持续优化的方向。
“霸榜”前三
在OpenRouter的调用榜单上,除“爱马仕”和“龙虾”外,排名第三的Kilo Code智能体调用量紧随其后,远超第四名,潜力不容小觑。在Kilo Code的调用量排名中,上海大模型更是霸占前三:第一名阶跃星辰Step 3.5 Flash、第二名稀宇科技MiniMax M2.5、第三名蚂蚁百灵Ling-2.6-1T。
上海大模型“霸榜”前三。
与“爱马仕”等通用智能体不同,Kilo Code是一个专业编程智能体,用户目标单一,就是写代码。
“开发者的核心诉求是代码生成准不准、工具调用稳不稳、多步任务能不能跑完、成本划不划算。”蚂蚁百灵大模型技术专家表示,为成为复杂工作流中的核心模块,百灵大模型在指令执行、工具适配、长上下文承接和工程任务处理能力上都做了系统优化。
据悉,为了差异化竞争,百灵大模型在训练过程中没有“求大求全”,而是专攻编码赛道。“在国际公认的多款代码和工具调用榜单中,Ling-2.6-1T达到开源第一梯队水平,这是开发者愿意用的基础。”该技术专家解释。
上海市 人工智能 协会秘书长钟俊浩也认为,上海大模型在OpenRouter等全球模型社区屡获佳绩,除了常规的性价比之外,国际化和开源策略也起到关键作用。上海大模型在 亚马逊 云、谷歌云等国际主流云服务的工程任务中表现良好,开源带来了丰富的开发者生态,把大模型的选择权交给开发者,反而让开发者更愿意使用。
持续“进化”
AI智能体 从“生成”走向“行动”,也对模型性能提出了更高要求。当前,多智能体协作趋势明显,不同模型会被同时调用,兼容性成为大模型调用量的关键指标之一。目前,MiniMax和阶跃星辰等上海大模型均高度兼容国际主流智能体框架,开发者接入成本低。
“即便单个智能体准确率只有60%,只要智能体数量足够多且犯错方向不一致,集成系统后的 综合 准确率可以迅速逼近100%。”北京智源 人工智能 研究院倪贤豪认为,如今智能体时代正从“单体智能”走向“群体智能”,关键不仅在于单体模型性能强弱,更在于智能体连接协作的效率和规模。
从OpenRouter榜单可以看出,智能体效率正成为上海大模型的核心竞争力。
比如MiniMax M2.7可实现自我“进化”,基于多种工具完成高度复杂的生产力任务,原生支持多种主流智能体框架。阶跃星辰新一代图像生成编辑模型Step Image Edit 2,参数量仅为35亿,但实际表现不输于200亿参数的同类大模型,生成图片仅需0.5至2秒。蚂蚁百灵Ling-2.6-1T完成Artificial Analysis评测仅需1600万输出词元,同类模型则需要5000万以上,也显示了突出的词元效率。
“要想让每分词元都花在刀刃上,如今的大模型仍需继续优化。”蚂蚁数科技术专家谢辛表示,在智能体时代,大模型还需要进一步降低词元消耗,保证结果交付的效率和可靠性。朱亦博也表示,下一步,阶跃星辰将强化模型的工具调用与长程任务执行能力,进一步提升复杂智能体任务的完成精度,同时推出不同尺寸的完整模型矩阵,兼顾多种场景的智能体验与性价比需求,适配多元化终端与应用落地。
(文章来源:上观新闻)