百?！睂嵙δ募覐姡垦芯繖C構(gòu)測評的國內(nèi)外140 大模型綜合能力對比來了：國產(chǎn)模型新亮點

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-05-18 11:29:58 財聯(lián)社

近期，一場針對大模型的全面評測活動吸引了眾多關(guān)注。北京智源研究院發(fā)布的評測結(jié)果顯示了140余種語言及多模態(tài)大模型的能力，這些模型覆蓋了開源與商業(yè)閉源領(lǐng)域，旨在通過詳盡的評估為公眾揭示各模型的性能與易用性差異。

此次評測的一大亮點是，智源研究院與北京海淀教委合作，首次對大模型進行了K12學(xué)科測試，這一舉措對把握大模型當(dāng)前的發(fā)展?fàn)顩r及潛在應(yīng)用價值具有重要意義。評測顯示，盡管部分模型在綜合學(xué)科能力上展現(xiàn)出較高水平，但仍與海淀學(xué)生平均表現(xiàn)存在一定差距，尤其是在理科科目和圖表理解能力上暴露出弱點，顯示出大模型在教育領(lǐng)域的應(yīng)用還有待加強。

在語言模型方面，評測從多方面考察了模型的簡單理解至安全價值觀等能力，結(jié)果顯示，字節(jié)跳動的豆包Skylark2與OpenAI的GPT-4在中文語境下表現(xiàn)突出，體現(xiàn)了國內(nèi)大模型對本土用戶的深刻理解。多模態(tài)模型評測則聚焦于圖文理解與生成能力，展示了如OpenAI DALL-E3在文生圖領(lǐng)域的領(lǐng)先地位，以及OpenAI Sora在文生視頻中的顯著優(yōu)勢。值得注意的是，國產(chǎn)模型如愛詩科技的PixVerse也在文生視頻評測中取得了優(yōu)異成績，表明國產(chǎn)大模型正逐步縮小與國際先進水平的差距。

智源研究院院長王仲遠強調(diào)，多模態(tài)模型仍處于初級發(fā)展階段，現(xiàn)有評測標(biāo)準(zhǔn)與方法需伴隨技術(shù)進步持續(xù)更新。他指出，未來多模態(tài)模型將趨向與語言模型融合，要求模型不僅具備高水準(zhǔn)的生成能力，還需掌握世界的運行規(guī)律及科學(xué)原理，評測體系亦需隨之快速演進。

關(guān)于大模型在教育行業(yè)的應(yīng)用潛力，王仲遠表示，K12學(xué)科測試并非直接服務(wù)于教育行業(yè)，而是作為檢驗?zāi)Ｐ涂鐚W(xué)科能力的一種手段，有助于辨識模型在特定領(lǐng)域的適用性，如數(shù)理化能力強的模型可能更適合應(yīng)用于材料科學(xué)或醫(yī)療領(lǐng)域。

綜觀評測，盡管大模型在多個領(lǐng)域展現(xiàn)出了令人矚目的成就，但其發(fā)展和完善之路依舊漫長，特別是在實現(xiàn)真正意義上的多模態(tài)理解和生成上，以及如何更貼近人類認(rèn)知邏輯上，均有待進一步探索和突破。

(責(zé)任編輯：張蕾)

關(guān)閉

百?！睂嵙δ募覐姡垦芯繖C構(gòu)測評的國內(nèi)外140 大模型綜合能力對比來了：國產(chǎn)模型新亮點

相關(guān)新聞

今日熱點

頻道熱點