李彥宏戳破大模型跑分假象
新版本大模型的問世常伴隨著與GPT-4的性能對比熱潮,企業(yè)熱衷于展示自家模型在第三方榜單上的亮眼成績,強調(diào)在特定指標上已實現(xiàn)趕超,意在彰顯其技術(shù)實力的飛躍。然而,百度董事長李彥宏近期在內(nèi)部交流中揭示了這一現(xiàn)象背后的真相。他指出,盡管某些模型在部分單項上得分超越GPT-4,但這并不意味著它們與最前沿技術(shù)的差距已消失。李彥宏強調(diào),模型間的差異是多方面的,涵蓋基礎(chǔ)能力如理解、生成、邏輯推理及記憶等多個層面,同時也涉及成本效率,即某些模型雖效能相似,但高昂成本和較慢的推理速度使其總體上仍遜色于先進模型。
李彥宏還提到了測試集中常見的“過擬合”問題,即模型過度適應(yīng)訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過的數(shù)據(jù)上表現(xiàn)欠佳。這種現(xiàn)象反映出模型可能過于復(fù)雜,以至于捕捉到了訓(xùn)練數(shù)據(jù)中的非普遍性特征,從而限制了其泛化能力。盡管如此,跑分榜單仍具有一定的參考價值,它不僅提供了量化評估模型性能的快捷方式,也促進了技術(shù)競爭與進步,激發(fā)了模型優(yōu)化的動力。
李彥宏提醒,自媒體的炒作和新模型發(fā)布時的宣傳傾向,可能會誤導(dǎo)公眾認為各模型間的能力差距正日益縮小,實際情況卻并非如此。他主張,真正檢驗大模型能力的標準應(yīng)在于其能否在具體場景下滿足用戶需求并創(chuàng)造價值,而非簡單的排名比拼。對于業(yè)界常說的“領(lǐng)先12個月或落后18個月”的時間差,李彥宏認為其重要性被高估,強調(diào)持續(xù)創(chuàng)新與市場需求響應(yīng)速度才是決定市場份額的關(guān)鍵。
展望未來,李彥宏預(yù)測大模型間的性能差距或?qū)U大,因大模型的發(fā)展空間廣闊,且需持續(xù)迭代升級以降低成本、提高效率。此外,他還就開源與閉源模型、AI代理等議題分享了見解,認為在商業(yè)領(lǐng)域,閉源模型憑借高效的資源利用和成本分攤機制,較開源模型更具優(yōu)勢。至于大模型的應(yīng)用進展,李彥宏描繪了一條從輔助工具到具備自主性乃至獨立工作能力的AI工作者的發(fā)展路徑,并指出當前智能體雖受關(guān)注但尚未成為普遍共識,盡管其低門檻特性使其成為模型應(yīng)用的一種簡便途徑。