在權(quán)威評測中,MiMo-Audio展現(xiàn)出驚人實(shí)力,如在MMAU音頻理解基準(zhǔn)中的準(zhǔn)確率為89.7%,超越Gemini-2.5-Flash;在Big Bench Audio推理任務(wù)中得分78.3,領(lǐng)先GPT-4o-Audio-Preview。特別是在混合音頻場景理解測試中,模型能同時識別"咖啡廳交談+鋼琴伴奏+杯碟碰撞"等多源聲音信息,并生成結(jié)構(gòu)化場景描述,這一能力在開源模型中獨(dú)一無二。
MiMo-Audio-7B-Base已在多個領(lǐng)域展現(xiàn)應(yīng)用潛力。在智能家居方面,模型已集成到新一代小愛同學(xué),支持異常聲音監(jiān)測和場景聯(lián)動控制等功能。在內(nèi)容創(chuàng)作方面,基于模型強(qiáng)大的語音續(xù)接能力,用戶可通過文本指令生成完整脫口秀、辯論對話等內(nèi)容。在無障礙技術(shù)方面,模型能實(shí)時描述環(huán)境聲場,為視障群體提供"聽覺眼睛"。在端側(cè)部署方面,通過動態(tài)音頻分塊與低秩適配技術(shù),模型在80GB GPU環(huán)境下支持512 batch size的30秒音頻并行處理,首Token響應(yīng)時間從傳統(tǒng)模型的0.36秒降至0.09秒,吞吐量提升20倍,滿足智能手表、耳機(jī)等邊緣設(shè)備的實(shí)時交互需求。
作為小米"MiMo多模態(tài)智能"戰(zhàn)略的核心組件,MiMo-Audio-7B已在30余款智能設(shè)備中商用驗(yàn)證,其MIT開源協(xié)議確保開發(fā)者可免費(fèi)獲取模型權(quán)重與訓(xùn)練代碼。開發(fā)者可通過以下命令獲取模型:
``` git clone https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base ```
隨著硬件算力提升,音頻理解將與視覺、觸覺深度融合。業(yè)內(nèi)預(yù)測,2026年將出現(xiàn)"視聽融合"的通用智能體,而MiMo-Audio的開源無疑為這一方向提供了關(guān)鍵拼圖。對于開發(fā)者與企業(yè)而言,現(xiàn)在正是布局音頻AI應(yīng)用的戰(zhàn)略窗口期,可重點(diǎn)關(guān)注智能家居、車載交互、內(nèi)容創(chuàng)作三大落地場景,搶占"聽覺智能"商業(yè)化先機(jī)。項(xiàng)目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base