MiniMax新模型来了!技术更强但也更贵了,评价两极化
一边冲刺A股上市、一边发模型,MiniMax开始在技术与资本上双重发力。
6月1日,MiniMax发文宣布上线新模型M3,重点提升了编程(Coding)与智能体(Agent)能力,官方还宣布开启M3 API限时7天5折的活动。MiniMax表示会在接下来 10 天内更新模型的技术报告、以及开源对应的模型权重。
模型发布后业界评价不一,有用户体验认为速度更快了、上下文能力不错,但有更多的用户反馈Token消耗更快了,同时官方更改了Token Plan订阅,相当于模型未来会变相涨价。6月1日早盘,MiniMax(00100.HK)一度涨超7%,随后一路转跌,截至收盘跌超15%,报708港元/股,当前市值为2221亿港元。
据官方博客,M3是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。用户可以在手机上说“帮我打开本地ERP客户端,按这份Excel批量录入发票信息”,MiniMax Code会自动在电脑端完成跨应用、跨文件、跨系统的操作。
随M3一同更新的AI编程产品MiniMax Code,在长程复杂任务上展现出很强的自主性。它的智能体集群可以把一个大型任务拆解为多个可并发、可动态调整的阶段,再以协作的方式持续推进,并且能够产出、反思和修正,官方称其“可自主运行数天而无需人工干预”。
官方提到,M3在编程和智能体等专业任务上达到了前沿的能力。官方提供的数据显示,在衡量编程能力的基准测试SWE-Bench Pro上,MiniMax M3 超过了OpenAI的GPT-5.5和谷歌Gemini 3.1 Pro,接近Claude的Opus 4.7。在综合评估模型生成可缩放矢量图形(SVG)能力的基准 SVG-Bench 上,MiniMax M3超过Opus 4.7。
不过,海内外不少用户反馈已经“不相信跑分”,今天的编程能力越来越取决于能否用真实世界的用户逻辑来训练模型,靠基准测试难以完整反映真实用户体验。MiniMax也认为,下一代Agent Coding(智能体编程)比的不仅是代码生成,更需要比拼长期协作能力、规划能力以及人与智能体的协同效率。
为了展示这种能力,MiniMax让M3独立复现了一篇获奖论文《Learning Dynamics of LLM Finetuning》。这篇论文研究的是大模型微调过程中的“学习动力学”。最终M3自主运行了将近12个小时,跑通了核心实验,观测到DPO实验中重点讨论的squeezing效应,并成功验证了原论文提出的Extend缓解方法。
在这个复现论文的过程里,需要多模态能力来看懂论文的曲线图、数据、公式,而长上下文保证了论文、代码、实验日志可以一次性进窗口,同时编程和智能体能力足够强,才能长线程甚至并发地完成复现。
要让模型驾驭如此复杂的智能体任务,上下文扩展(context scaling)是绕不过去的坎,为了解决这一问题,MiniMax使用了全新稀疏注意力架构MSA(MiniMax Sparse Attention),基于此M3模型最高支持100万超长上下文,在100万上下文下,M3每token的计算量仅为上一代模型的1/20。
在价格方面,MiniMax M3的API调用价格按不同的上下文长度分为两档。512k以内上下文的调用原价是4.2元/百万输入tokens、16.8元/百万输出tokens,但目前有7天限时五折的优惠;512k-1M的上下文调用价格为8.4元/百万输入tokens、33.6元/百万输出tokens。