2月12日,小米發(fā)布了開源VLA模型Xiaomi-Robotics-0。該模型擁有47億參數(shù),具備視覺語言理解和高性能實(shí)時(shí)執(zhí)行能力,在多項(xiàng)仿真測(cè)試中取得了優(yōu)異成績(jī),并在真實(shí)任務(wù)中展示了動(dòng)作連貫、反應(yīng)靈敏的特點(diǎn),能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理。
物理智能的核心在于“感知-決策-執(zhí)行”的閉環(huán)質(zhì)量。為兼顧通用理解和精細(xì)控制,Xiaomi-Robotics-0采用了主流的Mixture-of-Transformers (MoT) 架構(gòu)。其視覺語言大腦(VLM)負(fù)責(zé)理解人類模糊指令并從高清視覺輸入中捕捉空間關(guān)系。動(dòng)作執(zhí)行小腦(Action Expert)則通過多層Diffusion Transformer (DiT)生成高頻平滑的動(dòng)作塊,并利用流匹配技術(shù)確保動(dòng)作精準(zhǔn)度。
大部分VLA模型在學(xué)習(xí)動(dòng)作時(shí)會(huì)失去原有的理解能力。通過多模態(tài)與動(dòng)作數(shù)據(jù)混合訓(xùn)練,Xiaomi-Robotics-0在學(xué)會(huì)操作的同時(shí)保持了強(qiáng)大的物體檢測(cè)、視覺問答和邏輯推理能力。VLM協(xié)同訓(xùn)練引入了Action Proposal機(jī)制,使VLM特征空間與動(dòng)作空間對(duì)齊。隨后凍結(jié)VLM,專注于訓(xùn)練DiT,使其能夠從噪聲中恢復(fù)出精準(zhǔn)的動(dòng)作序列。
針對(duì)推理延遲導(dǎo)致的真機(jī)“動(dòng)作斷層”問題,團(tuán)隊(duì)采用異步推理模式,讓模型推理與機(jī)器人運(yùn)行異步執(zhí)行,確保動(dòng)作連貫流暢。為進(jìn)一步增強(qiáng)響應(yīng)敏捷性和運(yùn)行穩(wěn)定性,引入了Clean Action Prefix和Λ-shape Attention Mask。前者將前一時(shí)刻預(yù)測(cè)的動(dòng)作作為輸入,保證動(dòng)作軌跡連續(xù)不抖動(dòng);后者通過特殊注意力掩碼,使模型更關(guān)注當(dāng)前視覺反饋,提高對(duì)環(huán)境變化的反應(yīng)性。
在多維度測(cè)試中,Xiaomi-Robotics-0表現(xiàn)出色。在LIBERO、CALVIN和SimplerEnv測(cè)試中,該模型在所有Benchmark和30種模型對(duì)比中均取得最優(yōu)結(jié)果。實(shí)際應(yīng)用方面,雙臂機(jī)器人平臺(tái)上的部署顯示,無論是在積木拆解還是疊毛巾等長周期高難度任務(wù)中,機(jī)器人都能處理得游刃有余,展現(xiàn)出極高的手眼協(xié)調(diào)性。此外,模型還保留了VLM本身的多模態(tài)理解能力,在具身相關(guān)的Benchmark中表現(xiàn)尤為突出。
阿里巴巴達(dá)摩院發(fā)布了具身智能大腦基礎(chǔ)模型RynnBrain,并一次性開源了包括30B MoE在內(nèi)的7個(gè)全系列模型
2026-02-11 09:42:50機(jī)器人首次擁有時(shí)空記憶