小米MiMo稱與豆包各有千秋音頻大模型開源引領(lǐng)新趨勢(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-17 11:00:45 CSDN博客

在權(quán)威評測中，MiMo-Audio展現(xiàn)出驚人實(shí)力，如在MMAU音頻理解基準(zhǔn)中的準(zhǔn)確率為89.7%，超越Gemini-2.5-Flash；在Big Bench Audio推理任務(wù)中得分78.3，領(lǐng)先GPT-4o-Audio-Preview。特別是在混合音頻場景理解測試中，模型能同時識別"咖啡廳交談+鋼琴伴奏+杯碟碰撞"等多源聲音信息，并生成結(jié)構(gòu)化場景描述，這一能力在開源模型中獨(dú)一無二。

MiMo-Audio-7B-Base已在多個領(lǐng)域展現(xiàn)應(yīng)用潛力。在智能家居方面，模型已集成到新一代小愛同學(xué)，支持異常聲音監(jiān)測和場景聯(lián)動控制等功能。在內(nèi)容創(chuàng)作方面，基于模型強(qiáng)大的語音續(xù)接能力，用戶可通過文本指令生成完整脫口秀、辯論對話等內(nèi)容。在無障礙技術(shù)方面，模型能實(shí)時描述環(huán)境聲場，為視障群體提供"聽覺眼睛"。在端側(cè)部署方面，通過動態(tài)音頻分塊與低秩適配技術(shù)，模型在80GB GPU環(huán)境下支持512 batch size的30秒音頻并行處理，首Token響應(yīng)時間從傳統(tǒng)模型的0.36秒降至0.09秒，吞吐量提升20倍，滿足智能手表、耳機(jī)等邊緣設(shè)備的實(shí)時交互需求。

作為小米"MiMo多模態(tài)智能"戰(zhàn)略的核心組件，MiMo-Audio-7B已在30余款智能設(shè)備中商用驗(yàn)證，其MIT開源協(xié)議確保開發(fā)者可免費(fèi)獲取模型權(quán)重與訓(xùn)練代碼。開發(fā)者可通過以下命令獲取模型：

``` git clone https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base ```

隨著硬件算力提升，音頻理解將與視覺、觸覺深度融合。業(yè)內(nèi)預(yù)測，2026年將出現(xiàn)"視聽融合"的通用智能體，而MiMo-Audio的開源無疑為這一方向提供了關(guān)鍵拼圖。對于開發(fā)者與企業(yè)而言，現(xiàn)在正是布局音頻AI應(yīng)用的戰(zhàn)略窗口期，可重點(diǎn)關(guān)注智能家居、車載交互、內(nèi)容創(chuàng)作三大落地場景，搶占"聽覺智能"商業(yè)化先機(jī)。項(xiàng)目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base

首頁上一頁 12共 2 頁

(責(zé)任編輯：0882)

關(guān)閉

小米MiMo稱與豆包各有千秋 音頻大模型開源引領(lǐng)新趨勢(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

小米MiMo稱與豆包各有千秋音頻大模型開源引領(lǐng)新趨勢(2)