小米MiMo稱與豆包各有千秋 音頻大模型開源引領(lǐng)新趨勢(shì)!小米正式開源了全球首個(gè)具備少樣本泛化能力的音頻大模型MiMo-Audio-7B-Base。該模型通過上億小時(shí)訓(xùn)練數(shù)據(jù)和創(chuàng)新架構(gòu),在多項(xiàng)基準(zhǔn)測(cè)試中超越了谷歌Gemini與OpenAI GPT-4o音頻模型,標(biāo)志著音頻AI從"專用工具"向"通用智能"跨越。
當(dāng)前音頻AI技術(shù)面臨三大痛點(diǎn):傳統(tǒng)模型需針對(duì)語(yǔ)音識(shí)別、環(huán)境聲分類等任務(wù)單獨(dú)優(yōu)化,多模態(tài)融合能力薄弱,復(fù)雜場(chǎng)景下泛化性能急劇下降。據(jù)信通院《2025 AI交互技術(shù)趨勢(shì)報(bào)告》顯示,用戶對(duì)語(yǔ)音交互的延遲容忍閾值已從2023年的800ms降至500ms,方言識(shí)別需求增長(zhǎng)370%,而現(xiàn)有系統(tǒng)僅能滿足40%的復(fù)雜場(chǎng)景需求。小米AI實(shí)驗(yàn)室負(fù)責(zé)人指出,現(xiàn)有系統(tǒng)能"聽見"聲波,但不會(huì)"理解"場(chǎng)景,這就像給機(jī)器裝了耳朵,卻沒教它如何解讀聲音的意義。在此背景下,MiMo-Audio-7B的開源具有里程碑意義,其核心突破在于采用GPT-3式的"規(guī)模即能力"范式,通過超大規(guī)模預(yù)訓(xùn)練實(shí)現(xiàn)跨任務(wù)泛化。
與此同時(shí),音頻市場(chǎng)正迎來爆發(fā)式增長(zhǎng)。艾媒咨詢數(shù)據(jù)顯示,2024年中國(guó)長(zhǎng)音頻市場(chǎng)規(guī)模達(dá)287億元,同比增長(zhǎng)14.8%;預(yù)計(jì)2025年將達(dá)337億元。隨著生活場(chǎng)景碎片化與數(shù)字消費(fèi)升級(jí),長(zhǎng)音頻憑借其獨(dú)特的伴隨性和深度沉浸體驗(yàn),正加速滲透通勤、睡前、車載等高契合度場(chǎng)景。
MiMo-Audio-7B-Base在多個(gè)方面實(shí)現(xiàn)了技術(shù)突破。首先,它具備少樣本學(xué)習(xí)能力,通過上下文學(xué)習(xí)機(jī)制,僅需3-5個(gè)示例即可完成新任務(wù)適配。例如,在語(yǔ)音轉(zhuǎn)換任務(wù)中,模型僅通過3段10秒?yún)⒖家纛l,即可實(shí)現(xiàn)92.3%的說話人相似度;在環(huán)境聲分類任務(wù)中,單樣本情況下準(zhǔn)確率達(dá)81.7%,超越傳統(tǒng)模型微調(diào)后性能。其次,該模型采用了1.2B參數(shù)Tokenizer+7B參數(shù)主體模型的協(xié)同架構(gòu),通過8層殘差矢量量化技術(shù)實(shí)現(xiàn)25Hz音頻token生成。其創(chuàng)新的"補(bǔ)丁編解碼"機(jī)制,能將4個(gè)連續(xù)音頻token聚合成單個(gè)語(yǔ)義補(bǔ)丁,使LLM處理效率提升4倍。此外,MiMo-Audio-7B-Base在22項(xiàng)國(guó)際評(píng)測(cè)中全面刷新SOTA,如語(yǔ)音識(shí)別任務(wù)詞錯(cuò)誤率低至5.8%,音樂風(fēng)格識(shí)別F1值達(dá)89.6%,環(huán)境聲分類準(zhǔn)確率在ESC-50數(shù)據(jù)集達(dá)92.3%。特別在混合音頻場(chǎng)景中,能同時(shí)解析"咖啡廳交談+鋼琴伴奏+杯碟碰撞"等多源聲音信息,生成結(jié)構(gòu)化場(chǎng)景描述。最后,指令微調(diào)版本MiMo-Audio-7B-Instruct引入了"Thinking模式",在處理復(fù)雜指令時(shí)會(huì)先生成文本思考過程再輸出語(yǔ)音,提升了復(fù)雜推理能力。