3月19日,小米大模型團隊發(fā)布了MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS三款大模型。
Xiaomi MiMo-V2-Pro是小米面向Agent時代的旗艦基座模型,專為現(xiàn)實世界中高強度的Agent工作場景而設(shè)計。該模型擁有超過1T的總參數(shù)量(42B激活參數(shù)),采用創(chuàng)新的混合注意力架構(gòu),并支持1M超長上下文長度。在強大的模型基座上,小米進一步拓展了智能的動作空間,實現(xiàn)了從Coding到Claw的重要泛化。在全球權(quán)威大模型綜合智能排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第八,國內(nèi)第二。
MiMo-V2-Omni是小米面向Agent時代的全模態(tài)基座模型,旨在應(yīng)對現(xiàn)實世界中復(fù)雜的多模態(tài)交互與執(zhí)行場景。小米從底層構(gòu)建了融合文本、視覺、語音的全模態(tài)基座,并以統(tǒng)一架構(gòu)將“感知”與“行動”深度綁定。這不僅打破了傳統(tǒng)模型“重理解、輕執(zhí)行”的局限,還讓模型原生具備了多模態(tài)感知、工具調(diào)用、函數(shù)執(zhí)行及GUI操作能力。MiMo-V2-Omni可無縫接入各種Agent框架,實現(xiàn)了從理解到操控的跨越,大幅降低了全模態(tài)Agent的落地門檻。
Xiaomi MiMo-V2-TTS是小米自主研發(fā)的語音合成大模型?;谧匝蠥udio Tokenizer和多碼本語音-文本聯(lián)合建模架構(gòu),經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練與多維度強化學(xué)習(xí),實現(xiàn)了高度可控的多粒度語音風(fēng)格控制。MiMo-V2-TTS支持從整體風(fēng)格定調(diào)到局部情緒表達的精準(zhǔn)調(diào)節(jié),能在同一句話內(nèi)完成語氣轉(zhuǎn)折和情感遞變;真實還原人類說話的自然韻律;在唱歌時,也能準(zhǔn)確表達音高和節(jié)奏,自然且富有表現(xiàn)力。
小米正式開源了全球首個具備少樣本泛化能力的音頻大模型MiMo-Audio-7B-Base
2025-12-17 11:00:45小米MiMo稱與豆包各有千秋