英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-03 21:09:27 網(wǎng)易

英偉達(dá)最近的研究揭示了長上下文大模型存在虛標(biāo)現(xiàn)象，涉及包括GPT-4在內(nèi)的10個(gè)知名模型。這些模型宣稱能處理128K乃至1M的上下文長度，但在英偉達(dá)設(shè)計(jì)的新指標(biāo)“有效上下文”測試下，能維持32K有效長度的模型已顯稀缺。這一新基準(zhǔn)名為RULER，它通過檢索、多跳追蹤、聚合及問答四類共13項(xiàng)任務(wù)，評估模型處理長文本的真實(shí)能力，確保關(guān)注點(diǎn)在于模型的理解而非單純的信息回憶。英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多。

RULER基準(zhǔn)的獨(dú)特之處在于減少了對模型預(yù)存“參數(shù)化知識”的依賴，增強(qiáng)了評測的公平性和全面性。例如，它不僅升級了傳統(tǒng)的單一檢索任務(wù)，還引入了多針檢索、多值檢索、多查詢檢索等復(fù)雜情景，以及模擬指代消解的變量追蹤、詞匯提取和抗干擾的長序列問答等挑戰(zhàn)，全方位檢驗(yàn)?zāi)Ｐ偷拈L文本處理實(shí)力。

實(shí)驗(yàn)涵蓋了從6B至8x7B參數(shù)規(guī)模不等的10個(gè)模型，包括GPT-4及其他開源模型如Command-R、Yi-34B等，最大上下文長度跨度從32K至1M。在RULER的嚴(yán)格測試下，盡管多數(shù)模型在其標(biāo)稱的長上下文范圍內(nèi)表現(xiàn)出色，但深入分析發(fā)現(xiàn)，僅Mixtral模型能在其聲明的長度上持續(xù)超越基線性能。GPT-4在4K長度下展現(xiàn)出最佳性能，且在擴(kuò)展至128K時(shí)性能下降最少。開源模型中，Command-R、Yi-34B及Mixtral因采用較大RoPE基頻和更多參數(shù)，表現(xiàn)突出。

進(jìn)一步的研究還探索了輸入長度、任務(wù)復(fù)雜度對模型表現(xiàn)的影響，以及模型大小、架構(gòu)對長上下文處理能力的作用。結(jié)果顯示，增大訓(xùn)練上下文通常提升性能，但效果不恒定；模型規(guī)模擴(kuò)大顯著有利于長文本理解；非Transformer架構(gòu)模型在此類任務(wù)上表現(xiàn)不及基于Transformer的模型。

對于那些渴望深入了解模型長文本處理能力局限及優(yōu)化方向的研究者而言，英偉達(dá)的這項(xiàng)研究無疑提供了寶貴的洞見和實(shí)證基礎(chǔ)。

英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重，32K性能合格的都不多