近期,一場針對大模型的全面評測活動吸引了眾多關(guān)注。北京智源研究院發(fā)布的評測結(jié)果顯示了140余種語言及多模態(tài)大模型的能力,這些模型覆蓋了開源與商業(yè)閉源領(lǐng)域,旨在通過詳盡的評估為公眾揭示各模型的性能與易用性差異。
此次評測的一大亮點是,智源研究院與北京海淀教委合作,首次對大模型進行了K12學(xué)科測試,這一舉措對把握大模型當(dāng)前的發(fā)展?fàn)顩r及潛在應(yīng)用價值具有重要意義。評測顯示,盡管部分模型在綜合學(xué)科能力上展現(xiàn)出較高水平,但仍與海淀學(xué)生平均表現(xiàn)存在一定差距,尤其是在理科科目和圖表理解能力上暴露出弱點,顯示出大模型在教育領(lǐng)域的應(yīng)用還有待加強。
在語言模型方面,評測從多方面考察了模型的簡單理解至安全價值觀等能力,結(jié)果顯示,字節(jié)跳動的豆包Skylark2與OpenAI的GPT-4在中文語境下表現(xiàn)突出,體現(xiàn)了國內(nèi)大模型對本土用戶的深刻理解。多模態(tài)模型評測則聚焦于圖文理解與生成能力,展示了如OpenAI DALL-E3在文生圖領(lǐng)域的領(lǐng)先地位,以及OpenAI Sora在文生視頻中的顯著優(yōu)勢。值得注意的是,國產(chǎn)模型如愛詩科技的PixVerse也在文生視頻評測中取得了優(yōu)異成績,表明國產(chǎn)大模型正逐步縮小與國際先進水平的差距。
智源研究院院長王仲遠強調(diào),多模態(tài)模型仍處于初級發(fā)展階段,現(xiàn)有評測標(biāo)準(zhǔn)與方法需伴隨技術(shù)進步持續(xù)更新。他指出,未來多模態(tài)模型將趨向與語言模型融合,要求模型不僅具備高水準(zhǔn)的生成能力,還需掌握世界的運行規(guī)律及科學(xué)原理,評測體系亦需隨之快速演進。
關(guān)于大模型在教育行業(yè)的應(yīng)用潛力,王仲遠表示,K12學(xué)科測試并非直接服務(wù)于教育行業(yè),而是作為檢驗?zāi)P涂鐚W(xué)科能力的一種手段,有助于辨識模型在特定領(lǐng)域的適用性,如數(shù)理化能力強的模型可能更適合應(yīng)用于材料科學(xué)或醫(yī)療領(lǐng)域。
綜觀評測,盡管大模型在多個領(lǐng)域展現(xiàn)出了令人矚目的成就,但其發(fā)展和完善之路依舊漫長,特別是在實現(xiàn)真正意義上的多模態(tài)理解和生成上,以及如何更貼近人類認(rèn)知邏輯上,均有待進一步探索和突破。
5月15日,字節(jié)跳動在火山引擎原動力大會上揭曉了豆包大模型
2024-05-15 17:20:28字節(jié)大模型比行業(yè)價格低99%