登录

刚刚,Mind Lab开源V 1系列模型Preview,749 B参数,专为Agent后训练


速读:这些底层积累和突破为今天模型的高效后训练、持续更新迭代提供了关键的工程基石。 从GPT-5.5、DeepSeekV4到ClaudeOpus4.8,后训练正在成为模型能力提升的关键引擎。
2026年06月08日 12:44

机器之心发布

过去一个多月,大模型圈依旧热闹。从 GPT-5.5、DeepSeek V4 到 Claude Opus 4.8, 后训练正在成为模型能力提升的关键引擎 。

此时,一家此前鲜少被大众注意的实验室,首次开源了自己的大模型。

前沿实验室 Mind Lab 发布了 Macaron-V1-Preview 并开源,这是一款拥有 749B( 744+5B) 参数、基于 GL M5.1、 激活参数 40B、 专为 Agent Harness 场景深度后训练 的大模型。

这一模型的开发仅使用不到 300 张 GPU,其中大部分并非英伟达最新的芯片型号,算力成本只有其他同尺寸模型公司训练的不到 1%。

从刚刚公布的数据来看,这款新模型的表现令人关注。

Ma Ma caron-V1-Prev iew 在多个指标上达到与头部开闭源模型可比的表现

在长链路生活任务评测 LivingBench 与 VitaBench 中,Macaron-V1-Preview 一举拿下 SOTA。在谷歌生成式交互界面 A2UI 协议的评测和面向 OpenClaw 个人智能助理(小龙虾)的 PinchBench 中, 它同样取得了开源模型  SOTA 的好成绩。

在数学和代码等通用任务上,它能比肩同期头部的开源模型。

Macaron-V1-Preview 在生活场景实现 SOTA,在通用 Agent 任务中达到前沿水平 Macaron-V1-Preview 在生活场景实现 SOTA,在通用 Agent 任务中达到前沿水平 根据 Mind Lab 发布的文章,Macaron-V1-Preview 首次整合了先前密集更新的 LoRA、Agent Harness 和生成式交互 Agent to UI(A2UI)等关键技术,天然支持大规模持续学习架构(Mixture-of-LoRA)。

换句话说,Macaron-V1-Preview 不只会聊天回答问题,更能真正进入真实任务、调用工具、生 成可交互界 面,并且能在长期反馈中持续学习,持续自我更新。

下面是和常见模型的实测对比,效果请看视频。

Seed 2.0 Pro(左)与 Macaron-V1-Preview(右)效果对比,视频未加速

当下后 训练和持续学 习成为大模型进步的主要突破口 ,Claude Opus 4 系列的连续更新,也验证了以强化学习为核心的后训练已经成为主导模型能力提升的关键,模型沿着这条路径由纯粹聊天助手向复杂任务执行的 Agent 演进。

用强化学习拓展后训练的上限,用  LoRA 构建 持续学习的技术底座。 Macaron-V1-Preview 的发布是 Mind Lab 对当下模型训练新范式的首次开源验证,也是开源、开放的研究精神的又一次传承。

Mind Lab 是谁?

作为中国第一家 Neo Lab,Mind Lab 的阵容不可小视。 公司创始人 Andrew 在深圳清华大学研究院任研发中心主任,实验室负责人 马骁腾 是清华自动化系博士、博士后, 核心研究团队约 30 人,团队成员累计发表 200 篇顶会论文,总引用超过 5 万次。

其中, 基础设施负责人来自 DeepSeek,算法负责人来自字节 Seed,模型团队成员来自清华、MIT、NVIDIA、xAI 等机构 ,长期专注于模型训练、强化学习和高性能推理架构领域。

早在 Macaron-V1-Preview 之前,Mind Lab 就已经积累了大量底层能力。在去年底就与字节、英伟达合作,抢先 OpenAI 前 CTO 创立的 Thinking Machines Lab,率先实现了「万亿参数 LoRA 强化学习」的基础设施建设,并获得了英伟达官方转载。

英伟达官方转载 Mind Lab 在「万亿参数 LoRA 强化学习」的技术突破 英伟达官方转载 Mind Lab 在「万亿参数 LoRA 强化学习」的技术突破 万亿参数模型的强化学习基础设施,是后训练实验室的试金石 ,除大厂外此前仅掌握在极少数海外 Neo Lab 手中。这些底层积累和突破为今天模型的高效后训练、持续更新迭代提供了关键的工程基石。

为 Agent 任务而生的模型

如果说过去的大模型发布喜欢强调单项能力(数学、代码或长上下文),那么 Mind Lab 的 Macaron-V1-Preview 则呈现出另一种更完整、更 Agent-native 的能力架构。

Agent 任务往往混杂、模糊,既涉及生活场景,又可能延伸到复杂工具调用甚至代码执行。它是一条充满噪声的连续任务链路,需要从用户需求出发,进行多次真实交互和工具调用,直到任务真正落地。

任务链回放:大四女生第一次独自去外地参加研究生复试,需要自己处理高铁到站后的路线、住宿、安全和预算

Macaron-V1-Preview 将这种复杂能力纳入了评测体系中。它从一开始就面向真实任务流、工具流、交互流和用户反馈优化,让模型学会了如何在具体的产品环境中行动。 产品和模型都能够在这个反馈循环中持续演进、不断迭代。

生活类 Agent 任务登顶 SOTA

在美团定义的 VitaBench 和 Mind Lab 自研的 LivingBench 中,模型面对的是人们日常关心的吃喝玩乐、衣食住行的问题,需要处理好到家、到店、OTA 等服务场景。

这些任务听起来简单,但真正考验的是模型对用户偏好和用户真实处境的理解能力。 Macaron-V1-Preview 在这些任务中达到目前最强的表现 ,证明了它是能真正进入生活场景的个人智能体。

任务链回放:柳州柳南区中年人常吃的降压药(压氏达 / 苯磺酸氨氯地平片 5mg)在附近药店断货,需要在时间、预算、医保、用药安全等多重约束下找到购药方案。 (注:内容仅为产品功能演示,不构成医疗或用药建议。)

值得一提的是,LivingBench 是 Mind Lab 围绕真实产品体验构建的 benchmark,用来评估 Agent 在真实生活场景中的表现。

正如姚顺雨在「智能下半场」中所说, 构造有意义的 Benchmark 是当下打造模型最重要的任务。

LivingBench 构建了一个包含动态噪声、动态生活环境和动态用户反应的拟真沙盒,让任务可以像真实生活一样在互动中变化,以此观察模型能不能持续理解用户,处理突发变化,保护隐私,并在用户耐心有限的情况下把事情真正办好。

主题:模型|Macaron-V1-Preview|任务|后训练|大模型|强化学习