小米MiMo稱與豆包各有千秋音頻大模型開源引領(lǐng)新趨勢(shì)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-17 11:00:45 CSDN博客

小米MiMo稱與豆包各有千秋音頻大模型開源引領(lǐng)新趨勢(shì)！小米正式開源了全球首個(gè)具備少樣本泛化能力的音頻大模型MiMo-Audio-7B-Base。該模型通過上億小時(shí)訓(xùn)練數(shù)據(jù)和創(chuàng)新架構(gòu)，在多項(xiàng)基準(zhǔn)測(cè)試中超越了谷歌Gemini與OpenAI GPT-4o音頻模型，標(biāo)志著音頻AI從"專用工具"向"通用智能"跨越。

當(dāng)前音頻AI技術(shù)面臨三大痛點(diǎn)：傳統(tǒng)模型需針對(duì)語(yǔ)音識(shí)別、環(huán)境聲分類等任務(wù)單獨(dú)優(yōu)化，多模態(tài)融合能力薄弱，復(fù)雜場(chǎng)景下泛化性能急劇下降。據(jù)信通院《2025 AI交互技術(shù)趨勢(shì)報(bào)告》顯示，用戶對(duì)語(yǔ)音交互的延遲容忍閾值已從2023年的800ms降至500ms，方言識(shí)別需求增長(zhǎng)370%，而現(xiàn)有系統(tǒng)僅能滿足40%的復(fù)雜場(chǎng)景需求。小米AI實(shí)驗(yàn)室負(fù)責(zé)人指出，現(xiàn)有系統(tǒng)能"聽見"聲波，但不會(huì)"理解"場(chǎng)景，這就像給機(jī)器裝了耳朵，卻沒教它如何解讀聲音的意義。在此背景下，MiMo-Audio-7B的開源具有里程碑意義，其核心突破在于采用GPT-3式的"規(guī)模即能力"范式，通過超大規(guī)模預(yù)訓(xùn)練實(shí)現(xiàn)跨任務(wù)泛化。

與此同時(shí)，音頻市場(chǎng)正迎來爆發(fā)式增長(zhǎng)。艾媒咨詢數(shù)據(jù)顯示，2024年中國(guó)長(zhǎng)音頻市場(chǎng)規(guī)模達(dá)287億元，同比增長(zhǎng)14.8%；預(yù)計(jì)2025年將達(dá)337億元。隨著生活場(chǎng)景碎片化與數(shù)字消費(fèi)升級(jí)，長(zhǎng)音頻憑借其獨(dú)特的伴隨性和深度沉浸體驗(yàn)，正加速滲透通勤、睡前、車載等高契合度場(chǎng)景。

MiMo-Audio-7B-Base在多個(gè)方面實(shí)現(xiàn)了技術(shù)突破。首先，它具備少樣本學(xué)習(xí)能力，通過上下文學(xué)習(xí)機(jī)制，僅需3-5個(gè)示例即可完成新任務(wù)適配。例如，在語(yǔ)音轉(zhuǎn)換任務(wù)中，模型僅通過3段10秒?yún)⒖家纛l，即可實(shí)現(xiàn)92.3%的說話人相似度；在環(huán)境聲分類任務(wù)中，單樣本情況下準(zhǔn)確率達(dá)81.7%，超越傳統(tǒng)模型微調(diào)后性能。其次，該模型采用了1.2B參數(shù)Tokenizer+7B參數(shù)主體模型的協(xié)同架構(gòu)，通過8層殘差矢量量化技術(shù)實(shí)現(xiàn)25Hz音頻token生成。其創(chuàng)新的"補(bǔ)丁編解碼"機(jī)制，能將4個(gè)連續(xù)音頻token聚合成單個(gè)語(yǔ)義補(bǔ)丁，使LLM處理效率提升4倍。此外，MiMo-Audio-7B-Base在22項(xiàng)國(guó)際評(píng)測(cè)中全面刷新SOTA，如語(yǔ)音識(shí)別任務(wù)詞錯(cuò)誤率低至5.8%，音樂風(fēng)格識(shí)別F1值達(dá)89.6%，環(huán)境聲分類準(zhǔn)確率在ESC-50數(shù)據(jù)集達(dá)92.3%。特別在混合音頻場(chǎng)景中，能同時(shí)解析"咖啡廳交談+鋼琴伴奏+杯碟碰撞"等多源聲音信息，生成結(jié)構(gòu)化場(chǎng)景描述。最后，指令微調(diào)版本MiMo-Audio-7B-Instruct引入了"Thinking模式"，在處理復(fù)雜指令時(shí)會(huì)先生成文本思考過程再輸出語(yǔ)音，提升了復(fù)雜推理能力。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

小米MiMo稱與豆包各有千秋 音頻大模型開源引領(lǐng)新趨勢(shì)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

小米MiMo稱與豆包各有千秋音頻大模型開源引領(lǐng)新趨勢(shì)