小米发布并开源首代机器VLA大模型！刷新多项SOTA

速读：实测该模型在多维度测试中均展现出行业领先水平，实现“仿真通、真机强、多模态能力不丢失”的突破。

2026年02月12日 11:29

快科技2月12日消息，小米正式发布并开源首代机器人VLA大模型——Xiaomi-Robotics-0。

该模型拥有47亿参数，核心解决了传统VLA模型推理延迟、真机动作不连贯的行业痛点，兼具视觉语言理解与高性能实时执行能力，可在消费级显卡上实现实时推理，在仿真测试和真机任务中均刷新多项SOTA成绩。

Xiaomi-Robotics-0采用Mixture-of-Transformers(MoT)混合架构，通过“视觉语言大脑+动作执行小脑”的组合，实现感知、决策、执行的高效闭环，兼顾通用理解与精细动作控制。

视觉语言大脑（VLM）：以多模态VLM大模型为底座，能精准理解人类模糊自然指令，同时捕捉高清视觉输入中的空间关系，是模型的“决策核心”；

动作执行小脑（Action Expert）：嵌入多层Diffusion Transformer(DiT)，不直接输出单一动作，而是生成高频、平滑的“动作块”，并通过流匹配技术保障动作精准度，让机器人动作更具物理灵活性。

为避免模型学动作丢失基础理解能力，小米设计了跨模态预训练+后训练的两阶段训练方法，让模型既懂常识又精通体力活。

跨模态预训练：先通过多模态与动作数据混合训练，引入Action Proposal机制让VLM的特征空间与动作空间对齐；再冻结VLM专注训练DiT，使其从噪声中恢复精准动作序列，保障动作的平滑性；

后训练：这是解锁物理智能的核心，采用异步推理模式从机制上解决真机“动作断层”问题；同时引入Clean Action Prefix保障动作轨迹时间连续性，通过Λ-shape Attention Mask让模型聚焦当前视觉反馈、摆脱历史惯性，大幅提升机器人对环境突发变化的响应能力。

实测该模型在多维度测试中均展现出行业领先水平，实现“仿真通、真机强、多模态能力不丢失”的突破。

仿真测试：在LIBERO、CALVIN、SimplerEnv三大主流仿真测试的所有Benchmark中，对比30种现有模型均取得当前最优结果；

真机任务：在双臂机器人平台部署后，面对积木拆解、叠毛巾等长周期、高难度任务，展现出极高的手眼协调性，能灵活处理刚性积木和柔性织物等不同材质物体；

多模态能力：保留了VLM本身的物体检测、视觉问答、逻辑推理等能力，在具身相关基准测试中表现优异，弥补了传统VLA模型重动作、轻理解的短板。

小米已将Xiaomi-Robotics-0的技术主页、开源代码、模型权重全量开放，相关资源可分别在GitHub、Hugging Face等平台获取，为全球具身智能领域的开发者和研究机构提供免费技术支持。

【本文结束】如需转载请务必注明出处：

小米机器人机器

新浪众测

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

微信封禁自家“兄弟”红包，打的什么牌？

华住，比携程还会捞金？

瞒不住了！字节跳动被曝与三星洽谈自研AI芯片今年将生产达35万块

听劝改款！新款奥迪A6 e-tron/Q6 e-tron官图发布：方向盘回归物理按键

存储器价格飙升冲击终端售价！2026年全球手机产量降幅恐扩大

网易CEO丁磊谈AI对游戏影响：核心壁垒从产能转向整合能力

三星Galaxy S26系列看点汇总：安卓机皇来了

阿里蔡崇信最新专访：首谈曾被马云解雇往事

阿里系霸榜前二！蚂蚁阿福杀入苹果App Store总榜第二：新用户可领16.8元

网友称帮了个小忙胖东来竟寄来16公斤礼包：仅快递费就超100元

女子骑电动自行车近2个月从上海回广西引百万人围观：3000多公里路程一天充3次电

算力都烧不起了，Kimi竟然把用户往对手家赶？