智源研究院“百模”評(píng)測(cè)結(jié)果：字節(jié)跳動(dòng)多項(xiàng)第一(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-23 13:57:58 騰訊新聞

文生圖模型方面，參評(píng)的頭部模型已具備中文文字生成能力，但在處理復(fù)雜場(chǎng)景人物變形、常識(shí)性推理任務(wù)和中國(guó)文化相關(guān)任務(wù)時(shí)仍存在不足。騰訊Hunyuan Image在此領(lǐng)域領(lǐng)先。

文生視頻模型生成的視頻畫(huà)質(zhì)提升顯著，動(dòng)態(tài)性和鏡頭語(yǔ)言更加豐富，但仍存在動(dòng)作變形等問(wèn)題。快手可靈1.5（高品質(zhì)）等模型排名靠前。

語(yǔ)音語(yǔ)言模型得益于文本大模型的進(jìn)步，性能大幅提升。阿里巴巴Qwen2-Audio位居第一，其他如香港中文大學(xué)&微軟WavLLM、清華大學(xué)&字節(jié)跳動(dòng)Salmon也表現(xiàn)出色。

此外，智源聯(lián)合北京市海淀區(qū)教師進(jìn)修學(xué)校編制了K12全學(xué)段多學(xué)科試卷，以考察大模型與人類(lèi)學(xué)生的能力差異。模型在K12學(xué)科測(cè)驗(yàn)中的得分有所提高，但在理科科目上仍偏弱。

FlagEval大模型“角斗場(chǎng)”支持多種任務(wù)的自定義在線或離線盲測(cè)，用戶(hù)對(duì)模型響應(yīng)時(shí)間和輸出內(nèi)容格式有更高要求。通過(guò)FlagEval Debate平臺(tái)，智源進(jìn)一步評(píng)估了大模型的辯論能力，發(fā)現(xiàn)大多數(shù)模型缺乏整體邏輯闡述能力，且存在論據(jù)不嚴(yán)謹(jǐn)?shù)膯?wèn)題。

在金融量化交易領(lǐng)域的應(yīng)用方面，評(píng)測(cè)顯示大模型已能生成有回撤收益的策略代碼，接近初級(jí)量化交易員水平。深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在這一領(lǐng)域表現(xiàn)優(yōu)異。

智源的大模型評(píng)測(cè)平臺(tái)FlagEval經(jīng)過(guò)多次迭代，覆蓋了全球800多個(gè)開(kāi)閉源模型，包含20多種任務(wù)和90多個(gè)評(píng)測(cè)數(shù)據(jù)集。智源與多家高校和機(jī)構(gòu)合作共建了多個(gè)評(píng)測(cè)集，以確保評(píng)測(cè)的全面性和準(zhǔn)確性。

智源研究院副院長(zhǎng)林詠華表示，衡量一個(gè)模型應(yīng)從多個(gè)角度出發(fā)，建議用戶(hù)根據(jù)自身需求選擇合適的模型。排行榜上的微小分?jǐn)?shù)差異不應(yīng)影響用戶(hù)的選擇。未來(lái)，F(xiàn)lagEval評(píng)測(cè)體系將繼續(xù)創(chuàng)新，為大模型技術(shù)生態(tài)提供有力支持。

首頁(yè)上一頁(yè)12共 2 頁(yè)

(責(zé)任編輯：張蕾)

關(guān)閉

智源研究院“百模”評(píng)測(cè)結(jié)果：字節(jié)跳動(dòng)多項(xiàng)第一(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)