电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

DeepSeek公布推理新論文 提升獎(jiǎng)勵(lì)模型可擴(kuò)展性

關(guān)鍵詞:
2025-04-05 15:41:35  澎湃新聞

DeepSeek R2的研究成果已經(jīng)接近。最近,DeepSeek和清華大學(xué)的研究者發(fā)表了一篇論文,探討了獎(jiǎng)勵(lì)模型在推理時(shí)的Scaling方法。

強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于大規(guī)模語言模型(LLM)的后訓(xùn)練階段。通過RL激勵(lì)LLM的推理能力表明,采用合適的學(xué)習(xí)方法可以實(shí)現(xiàn)有效的推理時(shí)可擴(kuò)展性。然而,RL面臨的一個(gè)關(guān)鍵挑戰(zhàn)是在多種領(lǐng)域中為LLM獲得準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)。

研究者發(fā)現(xiàn),在獎(jiǎng)勵(lì)建模(RM)方法上采用點(diǎn)式生成式獎(jiǎng)勵(lì)建模(GRM),可以提升模型對(duì)不同輸入類型的靈活適應(yīng)能力,并具備推理階段可擴(kuò)展的潛力。為此,他們提出了一種自我原則點(diǎn)評(píng)調(diào)優(yōu)(SPCT)的學(xué)習(xí)方法。這種方法通過在線RL訓(xùn)練促進(jìn)GRM生成具備可擴(kuò)展獎(jiǎng)勵(lì)能力的行為,即能夠自適應(yīng)生成評(píng)判原則并準(zhǔn)確生成點(diǎn)評(píng)內(nèi)容,從而得到DeepSeek-GRM模型。

DeepSeek-GRM-27B是基于Gemma-2-27B經(jīng)過SPCT后訓(xùn)練的。實(shí)驗(yàn)結(jié)果表明,SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性,在多個(gè)綜合RM基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法和模型。研究者還比較了DeepSeek-GRM-27B與671B更大模型的推理時(shí)間擴(kuò)展性能,發(fā)現(xiàn)它在模型大小上的訓(xùn)練時(shí)間擴(kuò)展性能更好。此外,他們引入了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來引導(dǎo)投票過程,以提升擴(kuò)展性能。

研究者的貢獻(xiàn)包括:提出了一種新方法——自我原則點(diǎn)評(píng)調(diào)優(yōu)(SPCT),用于推動(dòng)通用獎(jiǎng)勵(lì)建模在推理階段實(shí)現(xiàn)有效的可擴(kuò)展性;SPCT顯著提升了GRM在獎(jiǎng)勵(lì)質(zhì)量和推理擴(kuò)展性能方面的表現(xiàn),超過了現(xiàn)有方法及多個(gè)強(qiáng)勁的公開模型;將SPCT的訓(xùn)練流程應(yīng)用于更大規(guī)模的LLM,并發(fā)現(xiàn)相比于訓(xùn)練階段擴(kuò)大模型參數(shù)量,推理階段的擴(kuò)展策略在性能上更具優(yōu)勢(shì)。

SPCT方法包括兩個(gè)階段:拒絕式微調(diào)作為冷啟動(dòng)階段,以及基于規(guī)則的在線強(qiáng)化學(xué)習(xí)。拒絕式微調(diào)的核心思想是讓GRM適應(yīng)不同輸入類型,并以正確的格式生成原則與點(diǎn)評(píng)內(nèi)容?;谝?guī)則的在線強(qiáng)化學(xué)習(xí)則進(jìn)一步微調(diào)GRM,通過提升生成的原則和點(diǎn)評(píng)內(nèi)容來強(qiáng)化通用獎(jiǎng)勵(lì)的生成過程。

為了提升DeepSeek-GRM在生成通用獎(jiǎng)勵(lì)上的性能,研究團(tuán)隊(duì)探索了如何利用更多的推理計(jì)算,通過基于采樣的策略來實(shí)現(xiàn)有效的推理時(shí)擴(kuò)展。逐點(diǎn)GRM投票過程被定義為將獎(jiǎng)勵(lì)求和,這實(shí)際上將獎(jiǎng)勵(lì)空間擴(kuò)大了k倍,使GRM能生成大量原則,從而提升最終獎(jiǎng)勵(lì)的質(zhì)量和細(xì)膩度。為了避免位置偏差并增加多樣性,研究人員在采樣前會(huì)對(duì)回答進(jìn)行隨機(jī)打亂。

研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來引導(dǎo)投票過程。這個(gè)meta RM是一個(gè)逐點(diǎn)標(biāo)量模型,訓(xùn)練目標(biāo)是判斷DeepSeek-GRM生成的原則和評(píng)論是否正確。引導(dǎo)投票的實(shí)現(xiàn)很簡單:meta RM為k個(gè)采樣獎(jiǎng)勵(lì)輸出元獎(jiǎng)勵(lì),然后從這些獎(jiǎng)勵(lì)中選出前k_meta個(gè)高質(zhì)量的獎(jiǎng)勵(lì)進(jìn)行最終投票,從而過濾掉低質(zhì)量樣本。

結(jié)果顯示,DeepSeek-GRM-27B在整體性能上超過了基線方法,并且與一些強(qiáng)大的公開RM表現(xiàn)相當(dāng)。如果通過推理時(shí)擴(kuò)展,DeepSeek-GRM-27B還能進(jìn)一步提升,達(dá)到最佳整體結(jié)果。隨著推理計(jì)算量增加,DeepSeek-GRM-27B展現(xiàn)出進(jìn)一步提升性能的潛力。meta RM也在每個(gè)基準(zhǔn)測(cè)試中證明了其過濾低質(zhì)量軌跡的有效性。

消融研究表明,即使沒有使用拒絕采樣的評(píng)論數(shù)據(jù)進(jìn)行冷啟動(dòng),經(jīng)過在線強(qiáng)化學(xué)習(xí)后,通用指令調(diào)整的GRM仍然顯著提升。非提示采樣似乎比提示采樣更重要,可能是因?yàn)樘崾静蓸榆壽E中出現(xiàn)了捷徑。這表明在線訓(xùn)練對(duì)GRM的重要性。原則生成對(duì)DeepSeek-GRM-27B的貪婪解碼和推理時(shí)擴(kuò)展性能都至關(guān)重要。在推理時(shí)擴(kuò)展中,meta RM指導(dǎo)的投票在不同k_meta下表現(xiàn)出魯棒性。

研究團(tuán)隊(duì)進(jìn)一步研究了DeepSeek-GRM-27B在不同規(guī)模LLM后訓(xùn)練下的推理時(shí)和訓(xùn)練時(shí)擴(kuò)展性能。使用32個(gè)樣本直接投票的DeepSeek-GRM-27B可以達(dá)到與671B MoE模型相當(dāng)?shù)男阅埽鴐eta RM指導(dǎo)的投票僅用8個(gè)樣本就能取得最佳結(jié)果,證明了DeepSeek-GRM-27B在推理時(shí)擴(kuò)展上的有效性,優(yōu)于單純擴(kuò)大模型規(guī)模。

(責(zé)任編輯:張蕾)
關(guān)閉

為這個(gè)女警隊(duì)點(diǎn)贊!她們是200多個(gè)孩子的緊急聯(lián)系人

她們是200多個(gè)孩子的緊急聯(lián)系人2025-04-27 12:05:18

車展內(nèi)外齊發(fā)力 帶火汽車消費(fèi)熱 政策補(bǔ)貼助推市場(chǎng)活力

車展內(nèi)外齊發(fā)力帶火汽車消費(fèi)熱2025-04-27 12:03:33

兒子瞞著父母考上北大研究生 媽媽得知后震驚 驚喜讓媽媽笑醒

兒子瞞著父母考上北大研究生媽媽得知后震驚2025-04-27 12:03:16

鄧卓翔:全力以赴對(duì)待與津門虎的比賽 積極備戰(zhàn)迎接挑戰(zhàn)

鄧卓翔,全力以赴對(duì)待與津門虎的比賽2025-04-27 11:55:37

停火結(jié)束戰(zhàn)爭(zhēng)繼續(xù),普京宣布恢復(fù)攻勢(shì) 雙方互指違反協(xié)議

?;鸾Y(jié)束戰(zhàn)爭(zhēng)繼續(xù),普京宣布恢復(fù)攻勢(shì)2025-04-27 11:30:45

美玩具公司因關(guān)稅政策起訴美政府 中小企業(yè)維權(quán)之戰(zhàn)

美玩具公司因關(guān)稅政策起訴美政府2025-04-27 11:58:17

美軍戰(zhàn)略轟炸機(jī)進(jìn)駐日本想演給誰看 加劇亞太安全困境

美軍戰(zhàn)略轟炸機(jī)進(jìn)駐日本想演給誰看2025-04-27 11:21:07

車展內(nèi)外齊發(fā)力 帶火汽車消費(fèi)熱 政策補(bǔ)貼助推市場(chǎng)活力

車展內(nèi)外齊發(fā)力帶火汽車消費(fèi)熱2025-04-27 12:03:33

84斤女子稱買百件衣服穿不上 網(wǎng)購尺碼困擾多

84斤女子稱買百件衣服穿不上2025-04-27 12:00:00

金正恩攜女兒出席朝鮮人民軍新型驅(qū)逐艦入水儀式 稱“將一刻不停地建設(shè)海軍”

金正恩攜女兒出席朝鮮人民軍新型驅(qū)逐艦入水儀式稱將一刻不停地建設(shè)海軍2025-04-27 11:14:09

美關(guān)稅政策重創(chuàng)美電商行業(yè) 跨境電商面臨嚴(yán)峻考驗(yàn)

美關(guān)稅政策重創(chuàng)美電商行業(yè)2025-04-27 11:49:21

韓國殘運(yùn)會(huì)盒飯只有海苔泡菜 簡陋餐食引爭(zhēng)議

韓國殘運(yùn)會(huì)盒飯只有海苔泡菜2025-04-27 11:57:44

和澤連斯基見面后 特朗普質(zhì)疑普京 是否真心結(jié)束沖突

和澤連斯基見面后特朗普質(zhì)疑普京2025-04-27 11:24:47

為這個(gè)女警隊(duì)點(diǎn)贊!她們是200多個(gè)孩子的緊急聯(lián)系人

她們是200多個(gè)孩子的緊急聯(lián)系人2025-04-27 12:05:18

中美未來關(guān)稅戰(zhàn)的局勢(shì)將如何發(fā)展 或?qū)⒂瓉泶蠼Y(jié)局

中美未來關(guān)稅戰(zhàn)的局勢(shì)將如何發(fā)展2025-04-27 11:50:07

印巴一旦打起來后果有多嚴(yán)重 中國角色成關(guān)鍵

印巴一旦打起來后果有多嚴(yán)重2025-04-27 11:38:00

兒子瞞著父母考上北大研究生 媽媽得知后震驚 驚喜讓媽媽笑醒

兒子瞞著父母考上北大研究生媽媽得知后震驚2025-04-27 12:03:16

五一期間南方30℃以上區(qū)域擴(kuò)張 多地將現(xiàn)高溫天氣

五一期間南方30℃以上區(qū)域擴(kuò)張2025-04-27 12:00:03

超市老板投資賺千萬全給員工 兌現(xiàn)承諾分享幸福

超市老板投資賺千萬全給員工2025-04-27 12:00:45

47歲劉燁現(xiàn)身上海,暴瘦成紙片人!此前已許久未在公眾視野露面 硬漢男神判若兩人

47歲劉燁現(xiàn)身上海,暴瘦成紙片人,此前已許久未在公眾視野露面2025-04-27 11:56:17

董明珠“海歸間諜論”引起爭(zhēng)議 海歸價(jià)值再審視

董明珠海歸間諜論引起爭(zhēng)議2025-04-27 12:00:15

美國對(duì)烏不愿接受領(lǐng)土讓步感到憤怒 會(huì)談破裂引發(fā)關(guān)注

美國對(duì)烏不愿接受領(lǐng)土讓步感到憤怒2025-04-27 11:13:57

印度未通知開閘泄洪,巴基斯坦多地水位大幅上升面臨洪災(zāi)風(fēng)險(xiǎn)

印度未通知開閘泄洪,巴基斯坦多地水位大幅上升2025-04-27 11:16:09

看似周日,實(shí)則周一!

看似周日 實(shí)則周一2025-04-27 12:01:28

伊朗最大港口爆炸是以色列干的嗎 事件蒙上神秘面紗

伊朗最大港口爆炸是以色列干的嗎2025-04-27 11:52:59

普京為何匆忙宣布庫爾斯克解放 勝利日臨近壓力大

普京為何匆忙宣布庫爾斯克解放2025-04-27 11:52:43

馬斯克稱5月起工作重心將轉(zhuǎn)回企業(yè) 專注特斯拉項(xiàng)目

馬斯克稱5月起工作重心將轉(zhuǎn)回企業(yè)2025-04-27 11:31:01

出現(xiàn)在上海小區(qū)的狐貍已死亡 身份成謎引發(fā)討論

出現(xiàn)在上海小區(qū)的狐貍已死亡2025-04-27 12:00:32

航拍中國黃巖島絕美風(fēng)景 碧海藍(lán)天詩意畫卷

航拍中國黃巖島絕美風(fēng)景2025-04-27 11:46:15

特朗普:讓加拿大加入美沒開玩笑 言論引發(fā)爭(zhēng)議

特朗普,讓加拿大加入美沒開玩笑2025-04-27 11:54:03

美國嚴(yán)格執(zhí)行人類清除計(jì)劃 芬太尼提案引爭(zhēng)議

美國嚴(yán)格執(zhí)行人類清除計(jì)劃2025-04-27 11:09:33

菲律賓能選出親華總統(tǒng)嗎?中美都在等結(jié)果

菲律賓能選出親華總統(tǒng)嗎2025-04-27 11:23:13

太揪心!浙江高速突發(fā),高速交警嘶吼喊話司機(jī):“別睡,家人在等你!”

太揪心,浙江高速突發(fā),高速交警嘶吼喊話司機(jī),別睡,家人在等你2025-04-27 11:55:53

相關(guān)新聞