實(shí)驗(yàn)結(jié)果表明,即使是最強(qiáng)的通用智能體系統(tǒng)表現(xiàn)也不佳。表現(xiàn)最好的Codex僅有39.7%的準(zhǔn)確率,Claude Code + Opus 4.6為33.8%,OpenCode(Kimi K2.5)為30.3%,OpenClaw(Kimi K2.5)為25.4%。盡管這些系統(tǒng)擁有完整的代碼執(zhí)行能力和文件系統(tǒng)訪問權(quán)限,但在長(zhǎng)期個(gè)性化記憶問答方面仍顯得力不從心。
雖然ATM-Bench的實(shí)驗(yàn)結(jié)果不盡如人意,但研究團(tuán)隊(duì)認(rèn)為這為未來的長(zhǎng)期記憶機(jī)制與個(gè)性化AI助手的研究開辟了新的方向。工具鏈再完善、模型再強(qiáng)大,也彌補(bǔ)不了記憶架構(gòu)上的根本缺陷。只有當(dāng)AI能夠像人類一樣在數(shù)年的記憶長(zhǎng)河中準(zhǔn)確檢索、關(guān)聯(lián)和推理時(shí),我們才能真正實(shí)現(xiàn)“個(gè)性化AI”。在此之前,我們不應(yīng)對(duì)其記憶能力抱有過高期望。畢竟,它們連“去年給媽媽買的相機(jī)”都記不住。
ATM-Bench數(shù)據(jù)集已在HuggingFace上線,包含完全人工標(biāo)注的1069個(gè)QA對(duì)、多模態(tài)證據(jù)標(biāo)注、NIAH大海撈針評(píng)估支持以及開箱即用的基準(zhǔn)測(cè)試代碼。