SPCT方法包括兩個階段:拒絕式微調(diào)作為冷啟動階段,以及基于規(guī)則的在線強化學習。拒絕式微調(diào)的核心思想是讓GRM適應(yīng)不同輸入類型,并以正確的格式生成原則與點評內(nèi)容。基于規(guī)則的在線強化學習則進一步微調(diào)GRM,通過提升生成的原則和點評內(nèi)容來強化通用獎勵的生成過程。
為了提升DeepSeek-GRM在生成通用獎勵上的性能,研究團隊探索了如何利用更多的推理計算,通過基于采樣的策略來實現(xiàn)有效的推理時擴展。逐點GRM投票過程被定義為將獎勵求和,這實際上將獎勵空間擴大了k倍,使GRM能生成大量原則,從而提升最終獎勵的質(zhì)量和細膩度。為了避免位置偏差并增加多樣性,研究人員在采樣前會對回答進行隨機打亂。
研究團隊還訓練了一個元獎勵模型(meta RM)來引導投票過程。這個meta RM是一個逐點標量模型,訓練目標是判斷DeepSeek-GRM生成的原則和評論是否正確。引導投票的實現(xiàn)很簡單:meta RM為k個采樣獎勵輸出元獎勵,然后從這些獎勵中選出前k_meta個高質(zhì)量的獎勵進行最終投票,從而過濾掉低質(zhì)量樣本。
結(jié)果顯示,DeepSeek-GRM-27B在整體性能上超過了基線方法,并且與一些強大的公開RM表現(xiàn)相當。如果通過推理時擴展,DeepSeek-GRM-27B還能進一步提升,達到最佳整體結(jié)果。隨著推理計算量增加,DeepSeek-GRM-27B展現(xiàn)出進一步提升性能的潛力。meta RM也在每個基準測試中證明了其過濾低質(zhì)量軌跡的有效性。
消融研究表明,即使沒有使用拒絕采樣的評論數(shù)據(jù)進行冷啟動,經(jīng)過在線強化學習后,通用指令調(diào)整的GRM仍然顯著提升。非提示采樣似乎比提示采樣更重要,可能是因為提示采樣軌跡中出現(xiàn)了捷徑。這表明在線訓練對GRM的重要性。原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時擴展性能都至關(guān)重要。在推理時擴展中,meta RM指導的投票在不同k_meta下表現(xiàn)出魯棒性。
研究團隊進一步研究了DeepSeek-GRM-27B在不同規(guī)模LLM后訓練下的推理時和訓練時擴展性能。使用32個樣本直接投票的DeepSeek-GRM-27B可以達到與671B MoE模型相當?shù)男阅埽鴐eta RM指導的投票僅用8個樣本就能取得最佳結(jié)果,證明了DeepSeek-GRM-27B在推理時擴展上的有效性,優(yōu)于單純擴大模型規(guī)模。
英偉達在NVIDIA GTC 2025上宣布,其NVIDIA Blackwell DGX系統(tǒng)創(chuàng)下DeepSeek-R1大模型推理性能的世界紀錄
2025-03-20 09:03:59英偉達創(chuàng)滿血DeepSeek推理世界紀錄DeepSeek震動硅谷,其高性價比的訓練技術(shù)引發(fā)了市場的廣泛關(guān)注
2025-02-02 11:44:50DeepSeek利好哪些AI基建產(chǎn)業(yè)鏈環(huán)節(jié)