大家好,我是很帥的狐貍。最近幾天DeepSeek的消息引起了廣泛關注。這家公司以極低成本訓練出一個名為R1的模型,其性能甚至可以媲美OpenAI的頂級推理模型o1。這一消息導致英偉達股價下跌,市場開始質(zhì)疑訓練AI是否真的需要大量資金投入。
讓我感到最有趣的是DeepSeek的訓練方法。R1不同于普通的大語言模型,它具有一定的推理能力,可以通過增加“思維鏈”來提高答案質(zhì)量,特別是在理工科題目上。傳統(tǒng)上,要讓大語言模型具備這種能力,通常是在基礎模型上通過監(jiān)督微調(diào)(SFT)來實現(xiàn),類似于學生通過大量練習和參考答案學習解題方法。
然而,DeepSeek在訓練R1-Zero時采用了強化學習(RL)的方法。這種方法更像嬰兒的學習過程:通過不斷的互動和反饋,逐漸學會新知識。例如,教嬰兒識別顏色時,通過不斷提問和反饋,嬰兒最終能理解并記住顏色的概念。
強化學習一般用于游戲策略等復雜任務,因為它沒有標準答案,有時會產(chǎn)生非常有創(chuàng)意的解決方案。2016年AlphaGo與李世石對戰(zhàn)時,就下出了連職業(yè)棋手都看不懂的一手棋,這體現(xiàn)了強化學習的創(chuàng)造力。
這對我們有什么啟發(fā)呢?我們在不熟悉的領域其實也像一張白紙,可以從零開始學習。比如我在麥肯錫做咨詢時,發(fā)現(xiàn)許多金融行業(yè)的常見做法在其他行業(yè)卻是創(chuàng)新。因此,跨領域的學習和思考可以幫助我們在不同領域找到新的解決方案。
此外,每天花些時間進行思考訓練也是一個好方法??梢赃x擇一個從未系統(tǒng)性思考過的問題,不限于工作相關,可以是跨行業(yè)的或生活方面的。這樣的訓練有助于開拓思路,激發(fā)創(chuàng)造力。
最近,社交平臺上涌現(xiàn)出大量關于AI算命的討論。以DeepSeek為代表的AI算命在年輕人中掀起了一股熱潮,成為他們在應對婚戀、職場等壓力時的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的啟示2024年1月20日,中國量化基金公司幻方發(fā)布的人工智能大模型DeepSeek-R1在全球科技界引起轟動
2025-02-18 05:39:09DeepSeek爆火的啟示新華社利馬11月16日電 當?shù)貢r間11月16日下午,國家主席習近平在利馬同美國總統(tǒng)拜登舉行會晤。習近平說:過去4年的經(jīng)驗值得總結、啟示需要記取,我認為至少有以下幾條。
2024-11-17 09:48:35簡訊|習近平談中美關系四年來的經(jīng)驗與啟示