电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

智源研究院“百模”評(píng)測(cè)結(jié)果:字節(jié)跳動(dòng)多項(xiàng)第一(2)

關(guān)鍵詞:
2024-12-23 13:57:58  騰訊新聞

文生圖模型方面,參評(píng)的頭部模型已具備中文文字生成能力,但在處理復(fù)雜場(chǎng)景人物變形、常識(shí)性推理任務(wù)和中國(guó)文化相關(guān)任務(wù)時(shí)仍存在不足。騰訊Hunyuan Image在此領(lǐng)域領(lǐng)先。

文生視頻模型生成的視頻畫(huà)質(zhì)提升顯著,動(dòng)態(tài)性和鏡頭語(yǔ)言更加豐富,但仍存在動(dòng)作變形等問(wèn)題。快手可靈1.5(高品質(zhì))等模型排名靠前。

語(yǔ)音語(yǔ)言模型得益于文本大模型的進(jìn)步,性能大幅提升。阿里巴巴Qwen2-Audio位居第一,其他如香港中文大學(xué)&微軟WavLLM、清華大學(xué)&字節(jié)跳動(dòng)Salmon也表現(xiàn)出色。

此外,智源聯(lián)合北京市海淀區(qū)教師進(jìn)修學(xué)校編制了K12全學(xué)段多學(xué)科試卷,以考察大模型與人類(lèi)學(xué)生的能力差異。模型在K12學(xué)科測(cè)驗(yàn)中的得分有所提高,但在理科科目上仍偏弱。

FlagEval大模型“角斗場(chǎng)”支持多種任務(wù)的自定義在線或離線盲測(cè),用戶(hù)對(duì)模型響應(yīng)時(shí)間和輸出內(nèi)容格式有更高要求。通過(guò)FlagEval Debate平臺(tái),智源進(jìn)一步評(píng)估了大模型的辯論能力,發(fā)現(xiàn)大多數(shù)模型缺乏整體邏輯闡述能力,且存在論據(jù)不嚴(yán)謹(jǐn)?shù)膯?wèn)題。

在金融量化交易領(lǐng)域的應(yīng)用方面,評(píng)測(cè)顯示大模型已能生成有回撤收益的策略代碼,接近初級(jí)量化交易員水平。深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在這一領(lǐng)域表現(xiàn)優(yōu)異。

智源的大模型評(píng)測(cè)平臺(tái)FlagEval經(jīng)過(guò)多次迭代,覆蓋了全球800多個(gè)開(kāi)閉源模型,包含20多種任務(wù)和90多個(gè)評(píng)測(cè)數(shù)據(jù)集。智源與多家高校和機(jī)構(gòu)合作共建了多個(gè)評(píng)測(cè)集,以確保評(píng)測(cè)的全面性和準(zhǔn)確性。

智源研究院副院長(zhǎng)林詠華表示,衡量一個(gè)模型應(yīng)從多個(gè)角度出發(fā),建議用戶(hù)根據(jù)自身需求選擇合適的模型。排行榜上的微小分?jǐn)?shù)差異不應(yīng)影響用戶(hù)的選擇。未來(lái),F(xiàn)lagEval評(píng)測(cè)體系將繼續(xù)創(chuàng)新,為大模型技術(shù)生態(tài)提供有力支持。

(責(zé)任編輯:張蕾)
關(guān)閉

軍大衣不合身爺爺手寫(xiě)千字退貨申請(qǐng) 認(rèn)真態(tài)度獲網(wǎng)友點(diǎn)贊

軍大衣不合身爺爺手寫(xiě)千字退貨申請(qǐng)2025-01-07 10:18:12

NBA戰(zhàn)力榜:雷霆超騎士登頂 火箭升至第五

NBA戰(zhàn)力榜,雷霆超騎士登頂2025-01-07 10:17:54

印度推遲太空對(duì)接實(shí)驗(yàn) 需更多地面驗(yàn)證

印度推遲太空對(duì)接實(shí)驗(yàn)2025-01-07 09:44:37

布林肯剛到韓國(guó),公調(diào)處多名官員被檢舉 美訪問(wèn)時(shí)機(jī)引猜測(cè)

布林肯剛到韓國(guó),公調(diào)處多名官員被檢舉2025-01-07 10:08:14

烏國(guó)防情報(bào)總局稱(chēng)已接收美援助的“哈澤德”無(wú)人機(jī),意味著什么?

烏國(guó)防情報(bào)總局稱(chēng)已接收美援助的“哈澤德”無(wú)人機(jī),意味著什么?2025-01-07 10:04:39

特朗普前私人律師藐視法庭 未提交所需文件和資產(chǎn)

特朗普前私人律師藐視法庭2025-01-07 09:44:15

官方通報(bào)女子吃包子稱(chēng)有甲醛索賠 非市監(jiān)局人員將依法處理

官方通報(bào)女子吃包子稱(chēng)有甲醛索賠2025-01-07 10:08:28

特朗普辟謠關(guān)稅政策美股巨震 市場(chǎng)情緒波動(dòng)顯著

特朗普辟謠關(guān)稅政策美股巨震2025-01-07 09:56:42

特魯多宣布辭職后,特朗普快速回應(yīng) 提及“美加合并說(shuō)”

特魯多宣布辭職后,特朗普快速回應(yīng)2025-01-07 10:00:03

西藏地震周邊5公里有7個(gè)村莊 盼平安!

西藏地震周邊5公里有7個(gè)村莊2025-01-07 10:06:24

NBA戰(zhàn)力榜:雷霆超騎士登頂 火箭升至第五

NBA戰(zhàn)力榜,雷霆超騎士登頂2025-01-07 10:17:54

烏軍突襲多所核電站

烏軍突襲多所核電站2025-01-07 10:02:19

泰國(guó)文華律所談王星失蹤案進(jìn)展 家屬展開(kāi)營(yíng)救

泰國(guó)文華律所談王星失蹤案進(jìn)展2025-01-07 10:07:57

美國(guó)參議院邀請(qǐng)?zhí)乩势臻_(kāi)會(huì) 內(nèi)閣提名待確認(rèn)

美國(guó)參議院邀請(qǐng)?zhí)乩势臻_(kāi)會(huì)2025-01-07 09:59:03

朝鮮試射新型高超音速中遠(yuǎn)程彈道導(dǎo)彈

朝鮮試射新型高超音速中遠(yuǎn)程彈道導(dǎo)彈2025-01-07 09:58:45

特朗普稱(chēng)華盛頓郵報(bào)報(bào)道不實(shí) 假新聞再引爭(zhēng)議

特朗普稱(chēng)華盛頓郵報(bào)報(bào)道不實(shí)2025-01-07 09:48:06

醫(yī)生得甲流一周變病毒性肺炎 病情惡化引關(guān)注

醫(yī)生得甲流一周變病毒性肺炎2025-01-07 10:15:29

騰訊寧德時(shí)代回應(yīng)被列入美國(guó)防部清單:是一個(gè)錯(cuò)誤

騰訊寧德時(shí)代回應(yīng)被列入美國(guó)防部清單2025-01-07 10:02:45

這些人避免食用臘八蒜

這些人避免食用臘八蒜2025-01-07 10:10:25

西藏那曲市尼瑪縣4.6級(jí)地震 震源深度10千米

西藏那曲市尼瑪縣4.6級(jí)地震2025-01-07 10:15:10

我國(guó)冰雪旅游收入或超6300億元 冰雪熱持續(xù)升溫

我國(guó)冰雪旅游收入或超6300億元2025-01-07 10:13:41

美欲將核威懾引入亞太

美欲將核威懾引入亞太2025-01-07 10:00:35

民眾黨號(hào)召八千新黨員上街游行 抗議司法不公

民眾黨號(hào)召八千新黨員上街游行2025-01-07 10:06:36

軍大衣不合身爺爺手寫(xiě)千字退貨申請(qǐng) 認(rèn)真態(tài)度獲網(wǎng)友點(diǎn)贊

軍大衣不合身爺爺手寫(xiě)千字退貨申請(qǐng)2025-01-07 10:18:12

賀希寧出戰(zhàn)43分鐘拿16分9板4助 手感一般難救主

賀希寧出戰(zhàn)43分鐘拿16分9板4助2025-01-07 10:11:17

烏官員稱(chēng)烏軍控制區(qū)域擴(kuò)大 庫(kù)爾斯克方向進(jìn)展顯著

烏官員稱(chēng)烏軍控制區(qū)域擴(kuò)大2025-01-07 09:47:13

大范圍降溫形勢(shì)確定 江南干燥變濕雨雪待定 冷空氣與南支槽共同作用

大范圍降溫形勢(shì)確定江南干燥變濕雨雪待定2025-01-07 10:11:39

相關(guān)新聞