學(xué)者談AI“窮盡”知識時人怎么辦數(shù)據(jù)瓶頸引發(fā)新思考

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-17 04:00:03 澎湃新聞

學(xué)者談AI窮盡知識時人怎么辦！互聯(lián)網(wǎng)是人類知識的汪洋大海，但并非無窮無盡。人工智能研究人員幾乎將其耗盡。過去十年來，人工智能的進(jìn)步主要通過擴(kuò)大神經(jīng)網(wǎng)絡(luò)和增加訓(xùn)練數(shù)據(jù)實現(xiàn)。這種擴(kuò)展使大語言模型在復(fù)刻會話語言和發(fā)展推理等能力方面取得了顯著成果。然而，一些專家認(rèn)為我們已接近擴(kuò)展的極限，部分原因是計算所需的能源不斷膨脹，同時也因為用于訓(xùn)練模型的傳統(tǒng)數(shù)據(jù)集正在枯竭。

今年，一項研究預(yù)測到2028年左右，用于訓(xùn)練人工智能模型的數(shù)據(jù)將達(dá)到公共在線文本的估計總存量。這意味著人工智能可能在四年內(nèi)耗盡訓(xùn)練數(shù)據(jù)。同時，數(shù)據(jù)所有者如報紙出版商開始限制其內(nèi)容的使用方式，進(jìn)一步收緊了數(shù)據(jù)使用權(quán)。麻省理工學(xué)院的研究員Shayne Longpre表示，這導(dǎo)致了“數(shù)據(jù)公共資源”規(guī)模的危機。

盡管專家們認(rèn)為這些限制可能會減緩人工智能系統(tǒng)的快速發(fā)展，但開發(fā)者們正在尋找解決辦法。例如，OpenAI和Anthropic等公司已經(jīng)公開承認(rèn)這一問題，并計劃生成新數(shù)據(jù)和尋找非常規(guī)數(shù)據(jù)源。OpenAI的一位發(fā)言人表示，他們使用多種來源的數(shù)據(jù)，包括公開數(shù)據(jù)、合作伙伴提供的非公開數(shù)據(jù)、合成數(shù)據(jù)生成和來自人工智能訓(xùn)練者的數(shù)據(jù)。

數(shù)據(jù)緊縮可能會促使人們從大型通用語言模型轉(zhuǎn)向更小、更專業(yè)的模型。過去十年中，語言模型的發(fā)展顯示了對數(shù)據(jù)的巨大需求。據(jù)估計，自2020年以來，用于訓(xùn)練語言模型的token數(shù)量增長了100倍，從數(shù)千億增加到了數(shù)萬億。盡管互聯(lián)網(wǎng)上的文本總量巨大，但高質(zhì)量的內(nèi)容相對較少，且增長速度緩慢。

與此同時，內(nèi)容提供商正越來越多地阻止網(wǎng)絡(luò)爬蟲或人工智能公司獲取其數(shù)據(jù)用于訓(xùn)練。研究表明，在三個主要凈化數(shù)據(jù)集中，限制爬蟲訪問的token數(shù)量從2023年的不到3%上升到2024年的20%-33%。目前有幾起訴訟正在進(jìn)行中，試圖為人工智能訓(xùn)練中使用的數(shù)據(jù)提供商贏得賠償。如果法院支持內(nèi)容提供者應(yīng)獲得經(jīng)濟(jì)補償?shù)挠^點，那么人工智能開發(fā)者和研究人員將更難獲得所需數(shù)據(jù)。

12 全文共 2 頁下一頁

關(guān)閉

學(xué)者談AI“窮盡”知識時人怎么辦 數(shù)據(jù)瓶頸引發(fā)新思考

相關(guān)新聞

今日熱點

頻道熱點

學(xué)者談AI“窮盡”知識時人怎么辦數(shù)據(jù)瓶頸引發(fā)新思考