斯坦福稱AI在基礎(chǔ)任務(wù)上已超越人類多項功能展現(xiàn)超人實力

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-04-18 11:43:30 紅星新聞

美國斯坦福大學(xué)人工智能研究所最新發(fā)布的“AI年度指數(shù)報告”揭示，AI的發(fā)展速度遠超預(yù)期，已突破過去設(shè)立的衡量標準，眾多指標達到甚至超越了原先設(shè)定的“滿分線”。在圖像識別、閱讀理解、簡單運算、多語言互譯等基礎(chǔ)任務(wù)方面，AI的性能已全面超越人類，實現(xiàn)大規(guī)模應(yīng)用。斯坦福大學(xué)學(xué)者呼吁，AI應(yīng)接受更具挑戰(zhàn)性的任務(wù)，進一步挖掘其潛力。

當(dāng)前，盡管AI在競賽級別數(shù)學(xué)問題及更高難度的抽象推理演繹上尚未超越頂尖人類智力，但科學(xué)家認為這是AI未來研發(fā)的重要方向。

斯坦福大學(xué)自2017年起每年發(fā)布的人工智能指數(shù)，由學(xué)術(shù)界和工業(yè)界的專家共同編制，旨在評估AI的技術(shù)能力、成本、倫理等多方面因素，為研究者、決策者及公眾提供參考。報告主編內(nèi)斯特·馬斯雷指出，AI正快速打破原有的基準線，導(dǎo)致衡量標準需頻繁更新。報告強調(diào)，AI在“語言”和“數(shù)學(xué)”等基礎(chǔ)學(xué)科已超越人類，但在“視覺空間的常識推理”和“競賽級數(shù)學(xué)解題”方面仍有待提升。馬斯雷建議，AI的下一步發(fā)展應(yīng)聚焦于增強更高層面的抽象推理能力，以實現(xiàn)性能躍升。

紐約大學(xué)機器學(xué)習(xí)研究員大衛(wèi)·萊恩領(lǐng)導(dǎo)的團隊設(shè)計的“GPQA測試”，被公認為衡量AI綜合能力的標準。數(shù)據(jù)顯示，人類博士生在其專業(yè)領(lǐng)域的GPQA測試得分率為約65%，而在其他領(lǐng)域則降至平均34%。相比之下，截至2023年底，各AI模型得分率普遍位于30%至40%區(qū)間。然而，今年推出的Claude 3大模型得分率已達約60%，接近博士生在其專業(yè)領(lǐng)域的知識水平，展現(xiàn)出驚人的進步速度。

AI領(lǐng)域的快速發(fā)展始于2011年，以GitHub平臺上相關(guān)項目數(shù)量從當(dāng)年的800個激增至現(xiàn)在的180萬為標志。科技企業(yè)預(yù)見AI的廣闊商業(yè)前景，大量投資推動科研進程加速。據(jù)統(tǒng)計，全球51個主流AI大模型中，僅15個出自學(xué)術(shù)團隊，其余大部分由企業(yè)開發(fā)。

斯坦福稱AI在基礎(chǔ)任務(wù)上已超越人類多項功能展現(xiàn)超人實力

AI模型訓(xùn)練成本顯著攀升，如OpenAI的GPT-4訓(xùn)練成本估算為7800萬美元，谷歌Gemini Ultra更是高達1.91億美元，相比之下，2017年Transformer模型訓(xùn)練成本僅900美元，2019年RoBERTa Large為約16萬美元。

隨著版權(quán)糾紛、隱私安全等問題日益突出，AI行業(yè)亟待建立統(tǒng)一的安全評估標準。目前，OpenAI、谷歌、Anthropic等領(lǐng)先企業(yè)各自采用不同測試評估模型安全性，導(dǎo)致難以橫向比較AI模型的風(fēng)險和局限性，增加了監(jiān)管難度。

面對AI的迅猛發(fā)展，公眾的擔(dān)憂情緒上升。根據(jù)皮尤研究中心數(shù)據(jù)，52%的美國人對AI持“憂大于喜”的態(tài)度，較2022年的38%有所增加。

(責(zé)任編輯：張佳鑫)

關(guān)閉

斯坦福稱AI在基礎(chǔ)任務(wù)上已超越人類 多項功能展現(xiàn)超人實力

相關(guān)新聞

今日熱點

頻道熱點

斯坦福稱AI在基礎(chǔ)任務(wù)上已超越人類多項功能展現(xiàn)超人實力