AI大??ㄅ廖魇①滵eepSeek!近日,OpenAI聯(lián)合創(chuàng)始人、前特斯拉AI總監(jiān)安德烈·卡帕西在YouTube上發(fā)布了一則3.5小時的免費課程,向普通觀眾全面介紹了大模型的相關(guān)知識。他以最近爆火的DeepSeek-R1為例,詳細講解了強化學(xué)習(xí)技術(shù)路徑的巨大潛力。
卡帕西指出,在大模型訓(xùn)練體系中,預(yù)訓(xùn)練、監(jiān)督微調(diào)和強化學(xué)習(xí)是三個主要階段。他認為強化學(xué)習(xí)是其中最關(guān)鍵的一環(huán),盡管其本質(zhì)是“試錯學(xué)習(xí)”,但在選擇最佳解決方案和提示詞分布等方面仍有許多細節(jié)需要解決。這些問題目前僅限于各大AI實驗室內(nèi)部,缺乏統(tǒng)一標(biāo)準(zhǔn)。
DeepSeek-R1的研究論文首次公開討論了強化學(xué)習(xí)在大語言模型中的應(yīng)用,并分享了這項技術(shù)如何使模型展現(xiàn)出推理能力??ㄅ廖髡J為R1在強化學(xué)習(xí)過程中涌現(xiàn)出的思維能力是最令人難以置信的成效。未來,如果繼續(xù)在大模型領(lǐng)域?qū)娀瘜W(xué)習(xí)進行擴展,有望讓大模型解鎖像AlphaGo那樣的“神之一手”,創(chuàng)造出前所未有的思考方式,例如用全新語言進行思考。但前提是需要創(chuàng)造足夠大且多樣的問題集,讓模型能夠自由探索解決方案。
強化學(xué)習(xí)的基本工作方式是讓模型在可驗證的問題上不斷試錯,并根據(jù)答案正誤激勵正確行為,最終引導(dǎo)模型提升能力。當(dāng)前主流的大語言模型訓(xùn)練體系包括預(yù)訓(xùn)練、監(jiān)督微調(diào)和強化學(xué)習(xí)。預(yù)訓(xùn)練和監(jiān)督微調(diào)已發(fā)展成熟,而強化學(xué)習(xí)仍處于早期階段。DeepSeek-R1論文的重要意義在于它是第一篇公開討論強化學(xué)習(xí)在大語言模型應(yīng)用的論文,激發(fā)了AI界使用RL訓(xùn)練大語言模型的興趣,并提供了許多研究結(jié)果和技術(shù)細節(jié)。
DeepSeek在R1論文中展示了R1-Zero在AIME競賽數(shù)學(xué)問題上的準(zhǔn)確性提升過程。隨著強化學(xué)習(xí)步驟增加,模型準(zhǔn)確性持續(xù)上升。更令人驚喜的是,模型在這一過程中形成了一套獨特的解題方法,傾向于使用更多token來提高準(zhǔn)確性。R1在強化學(xué)習(xí)過程中展現(xiàn)了所謂的“aha moment”,即通過嘗試多種想法從不同角度解決問題,顯著提升了準(zhǔn)確率。這種解決方式類似于人類解決數(shù)學(xué)問題的模式,但不是靠模仿或硬編碼,而是自然涌現(xiàn)的。R1重新發(fā)現(xiàn)了人腦的思維過程,自學(xué)了思維鏈(CoT),這是RL應(yīng)用于大語言模型時最令人難以置信的成效。
最近,社交平臺上涌現(xiàn)出大量關(guān)于AI算命的討論。以DeepSeek為代表的AI算命在年輕人中掀起了一股熱潮,成為他們在應(yīng)對婚戀、職場等壓力時的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的啟示我們需要更多的DeepSeek。過去幾年里,中國大模型從業(yè)者們經(jīng)常被問及中國距離追上ChatGPT還有多遠。2025年初,這個問題有了新的答案
2025-02-21 17:49:36DeepSeek爆火