Qwen3相較于前版本有哪些重大改性能與成本雙重突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-04-30 10:30:26 新浪財(cái)經(jīng)

阿里巴巴周一發(fā)布了通義千問3.0（Qwen3）系列模型并開源。該系列在數(shù)學(xué)和編程等多個(gè)方面性能與DeepSeek相當(dāng)，且部署成本顯著降低。Qwen3支持119種語言，便于Agent調(diào)用，并集成了兩種思考模式。

Qwen3系列包括兩個(gè)專家混合（MoE）模型和其他六個(gè)模型。旗艦?zāi)Ｐ蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中表現(xiàn)出色，與頂級(jí)模型相比具有競爭力。小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量僅為QwQ-32B的10%，但表現(xiàn)更優(yōu)。這些系統(tǒng)通過將任務(wù)劃分為更小的數(shù)據(jù)集來提升整體效率。

阿里巴巴還開源了Qwen3-235B-A22B和Qwen3-30B-A3B的權(quán)重，以及六個(gè)Dense模型，均在Apache 2.0許可下開源。Qwen3系列是“混合型”模型，既能在復(fù)雜問題上進(jìn)行推理，也能快速回答簡單請求。這種靈活性讓用戶能夠根據(jù)具體任務(wù)控制模型的“思考”程度，從而實(shí)現(xiàn)高效的任務(wù)處理。

Qwen3系列基于近36萬億個(gè)token進(jìn)行訓(xùn)練，數(shù)據(jù)量是Qwen2.5的兩倍。預(yù)訓(xùn)練過程分為三個(gè)階段，逐步增加知識(shí)密集型數(shù)據(jù)的比例，并擴(kuò)展上下文長度。Qwen3 Dense基礎(chǔ)模型的整體性能與更大規(guī)模的Qwen2.5基礎(chǔ)模型相當(dāng)，特別是在STEM、編碼和推理等領(lǐng)域表現(xiàn)優(yōu)異。后訓(xùn)練階段，阿里使用多樣化的長思維鏈數(shù)據(jù)對(duì)模型進(jìn)行了微調(diào)，增強(qiáng)了其探索和鉆研能力。

Qwen3在工具調(diào)用、執(zhí)行指令等方面表現(xiàn)出色，推薦用戶使用Qwen-Agent來充分發(fā)揮其能力。除了提供下載版本外，Qwen3還可以通過Fireworks AI、Hyperbolic等云服務(wù)提供商使用。

近期，OpenAI、谷歌和Anthropic也推出了多款新模型。阿里巴巴正以Qwen為核心構(gòu)建其AI版圖，目標(biāo)是實(shí)現(xiàn)通用人工智能（AGI）。Qwen3代表了該公司在通往AGI旅程中的一個(gè)重要里程碑。未來，阿里計(jì)劃從多個(gè)維度提升模型，包括優(yōu)化架構(gòu)和訓(xùn)練方法，擴(kuò)展數(shù)據(jù)規(guī)模，增加模型大小，延長上下文長度，并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)。

Qwen3的發(fā)布讓AI社區(qū)感到振奮，有網(wǎng)友對(duì)其性能表示贊賞，認(rèn)為它在高維張量運(yùn)算方面的表現(xiàn)相當(dāng)于Sonnet。開源AI的支持者也非常興奮，感謝阿里積極推動(dòng)開源。

(責(zé)任編輯：0882)

關(guān)閉

Qwen3相較于前版本有哪些重大改 性能與成本雙重突破

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

Qwen3相較于前版本有哪些重大改性能與成本雙重突破