小米發(fā)布機(jī)器人基座模型刷新多項(xiàng)SOTA

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-02-12 14:35:10 金融界

2月12日，小米發(fā)布了開源VLA模型Xiaomi-Robotics-0。該模型擁有47億參數(shù)，具備視覺語言理解和高性能實(shí)時(shí)執(zhí)行能力，在多項(xiàng)仿真測(cè)試中取得了優(yōu)異成績(jī)，并在真實(shí)任務(wù)中展示了動(dòng)作連貫、反應(yīng)靈敏的特點(diǎn)，能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理。

物理智能的核心在于“感知-決策-執(zhí)行”的閉環(huán)質(zhì)量。為兼顧通用理解和精細(xì)控制，Xiaomi-Robotics-0采用了主流的Mixture-of-Transformers (MoT) 架構(gòu)。其視覺語言大腦（VLM）負(fù)責(zé)理解人類模糊指令并從高清視覺輸入中捕捉空間關(guān)系。動(dòng)作執(zhí)行小腦（Action Expert）則通過多層Diffusion Transformer (DiT)生成高頻平滑的動(dòng)作塊，并利用流匹配技術(shù)確保動(dòng)作精準(zhǔn)度。

大部分VLA模型在學(xué)習(xí)動(dòng)作時(shí)會(huì)失去原有的理解能力。通過多模態(tài)與動(dòng)作數(shù)據(jù)混合訓(xùn)練，Xiaomi-Robotics-0在學(xué)會(huì)操作的同時(shí)保持了強(qiáng)大的物體檢測(cè)、視覺問答和邏輯推理能力。VLM協(xié)同訓(xùn)練引入了Action Proposal機(jī)制，使VLM特征空間與動(dòng)作空間對(duì)齊。隨后凍結(jié)VLM，專注于訓(xùn)練DiT，使其能夠從噪聲中恢復(fù)出精準(zhǔn)的動(dòng)作序列。

針對(duì)推理延遲導(dǎo)致的真機(jī)“動(dòng)作斷層”問題，團(tuán)隊(duì)采用異步推理模式，讓模型推理與機(jī)器人運(yùn)行異步執(zhí)行，確保動(dòng)作連貫流暢。為進(jìn)一步增強(qiáng)響應(yīng)敏捷性和運(yùn)行穩(wěn)定性，引入了Clean Action Prefix和Λ-shape Attention Mask。前者將前一時(shí)刻預(yù)測(cè)的動(dòng)作作為輸入，保證動(dòng)作軌跡連續(xù)不抖動(dòng)；后者通過特殊注意力掩碼，使模型更關(guān)注當(dāng)前視覺反饋，提高對(duì)環(huán)境變化的反應(yīng)性。

在多維度測(cè)試中，Xiaomi-Robotics-0表現(xiàn)出色。在LIBERO、CALVIN和SimplerEnv測(cè)試中，該模型在所有Benchmark和30種模型對(duì)比中均取得最優(yōu)結(jié)果。實(shí)際應(yīng)用方面，雙臂機(jī)器人平臺(tái)上的部署顯示，無論是在積木拆解還是疊毛巾等長周期高難度任務(wù)中，機(jī)器人都能處理得游刃有余，展現(xiàn)出極高的手眼協(xié)調(diào)性。此外，模型還保留了VLM本身的多模態(tài)理解能力，在具身相關(guān)的Benchmark中表現(xiàn)尤為突出。

(責(zé)任編輯：zhangxiaohua)

關(guān)閉

小米發(fā)布機(jī)器人基座模型 刷新多項(xiàng)SOTA

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

小米發(fā)布機(jī)器人基座模型刷新多項(xiàng)SOTA