英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多
英偉達(dá)最近的研究揭示了長上下文大模型存在虛標(biāo)現(xiàn)象,涉及包括GPT-4在內(nèi)的10個(gè)知名模型。這些模型宣稱能處理128K乃至1M的上下文長度,但在英偉達(dá)設(shè)計(jì)的新指標(biāo)“有效上下文”測試下,能維持32K有效長度的模型已顯稀缺。這一新基準(zhǔn)名為RULER,它通過檢索、多跳追蹤、聚合及問答四類共13項(xiàng)任務(wù),評估模型處理長文本的真實(shí)能力,確保關(guān)注點(diǎn)在于模型的理解而非單純的信息回憶。英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多。
RULER基準(zhǔn)的獨(dú)特之處在于減少了對模型預(yù)存“參數(shù)化知識”的依賴,增強(qiáng)了評測的公平性和全面性。例如,它不僅升級了傳統(tǒng)的單一檢索任務(wù),還引入了多針檢索、多值檢索、多查詢檢索等復(fù)雜情景,以及模擬指代消解的變量追蹤、詞匯提取和抗干擾的長序列問答等挑戰(zhàn),全方位檢驗(yàn)?zāi)P偷拈L文本處理實(shí)力。
實(shí)驗(yàn)涵蓋了從6B至8x7B參數(shù)規(guī)模不等的10個(gè)模型,包括GPT-4及其他開源模型如Command-R、Yi-34B等,最大上下文長度跨度從32K至1M。在RULER的嚴(yán)格測試下,盡管多數(shù)模型在其標(biāo)稱的長上下文范圍內(nèi)表現(xiàn)出色,但深入分析發(fā)現(xiàn),僅Mixtral模型能在其聲明的長度上持續(xù)超越基線性能。GPT-4在4K長度下展現(xiàn)出最佳性能,且在擴(kuò)展至128K時(shí)性能下降最少。開源模型中,Command-R、Yi-34B及Mixtral因采用較大RoPE基頻和更多參數(shù),表現(xiàn)突出。
進(jìn)一步的研究還探索了輸入長度、任務(wù)復(fù)雜度對模型表現(xiàn)的影響,以及模型大小、架構(gòu)對長上下文處理能力的作用。結(jié)果顯示,增大訓(xùn)練上下文通常提升性能,但效果不恒定;模型規(guī)模擴(kuò)大顯著有利于長文本理解;非Transformer架構(gòu)模型在此類任務(wù)上表現(xiàn)不及基于Transformer的模型。
對于那些渴望深入了解模型長文本處理能力局限及優(yōu)化方向的研究者而言,英偉達(dá)的這項(xiàng)研究無疑提供了寶貴的洞見和實(shí)證基礎(chǔ)。
英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,32K性能合格的都不多。
人工智能的潛力與當(dāng)前實(shí)際成效之間仍存在顯著差距,這一現(xiàn)狀可能是投資者面臨的一項(xiàng)重大挑戰(zhàn)
2024-06-03 22:32:33美股可能會“成也英偉達(dá)英偉達(dá)在生命科學(xué)領(lǐng)域的野心藏不住了。生成式AI興起后,英偉達(dá)的CEO黃仁勛頻繁在公開場合談?wù)撋茖W(xué),宣稱“生命科學(xué)工程化”即將來臨。
2024-04-19 09:46:18英偉達(dá)要治好誰的???英偉達(dá)(NVDA,股價(jià):1064.690美元,總市值2.62萬億美元)突然遭華爾街巨頭“空襲”。
2024-05-28 09:55:22意外!英偉達(dá)