你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-04-21 14:41:12 新浪財經

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳。ATM-Bench 將“個人AI助手是否真的記得你”這一問題轉化為一個研究測試基準。結果顯示，專用記憶智能體系統(tǒng)的準確率普遍低于20%，而通用智能體如OpenClaw、Codex和Claude Code的最高準確率也不到40%。

設想一個場景：媽媽問：“你上次去日本旅行幫我買的相機還在保修期內嗎？”對人類來說，這并不難，可以通過查看收據、照片或郵件來回憶。但對當前的AI來說，這類問題卻相當復雜。

劍橋大學的研究團隊開源了面向AI個人助理的長期記憶基準測試ATM-Bench。該測試評估AI在面對一個人多年真實生活數據時能否記住相關信息。實驗結果不理想，在ATM-Bench-Hard基準上，熱門開源智能體OpenClaw僅達到25.4%的準確率；編程智能體標桿Claude Code也只有33.8%。多數開源專用記憶系統(tǒng)準確率甚至低于20%。

過去已有不少工作評估AI的記憶能力，例如LoCoMo、LongMemEval等，但這些大多聚焦于對話歷史。而真實世界中的個人記憶分散在照片、視頻和郵件中，時間跨度可能長達數年且互相之間并不一致。為此，ATM-Bench提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。其關鍵特征包括時間跨度約4年，覆蓋圖像、視頻、郵件三類模態(tài)，超過一萬條記憶數據，且這些數據來自真實個人生活而非合成對話。圖像和視頻數據包含地點、時間等元數據，地點遍布四大洲。此外，還包括1000多條完全人工標注的問題、答案與證據。

ATM-Bench的核心難點在于個性化指代、多來源拼接、記憶沖突和元數據噪音。例如，個性化引用解析需要判斷“Grace”是朋友、家人還是寵物，并在圖片或視頻中識別出這個對象。證據沖突則涉及預訂金額和最終發(fā)票金額不一致的情況。看不見的線索，如從郵件中找到與Fancett餐廳相關的預訂信息，再跨模態(tài)找到同一時段的照片，最后從視覺內容中判斷點了什么菜，這些都需要AI具備跨模態(tài)處理能力。

實驗結果表明，即使是最強的通用智能體系統(tǒng)表現也不佳。表現最好的Codex僅有39.7%的準確率，Claude Code + Opus 4.6為33.8%，OpenCode（Kimi K2.5）為30.3%，OpenClaw（Kimi K2.5）為25.4%。盡管這些系統(tǒng)擁有完整的代碼執(zhí)行能力和文件系統(tǒng)訪問權限，但在長期個性化記憶問答方面仍顯得力不從心。

雖然ATM-Bench的實驗結果不盡如人意，但研究團隊認為這為未來的長期記憶機制與個性化AI助手的研究開辟了新的方向。工具鏈再完善、模型再強大，也彌補不了記憶架構上的根本缺陷。只有當AI能夠像人類一樣在數年的記憶長河中準確檢索、關聯和推理時，我們才能真正實現“個性化AI”。在此之前，我們不應對其記憶能力抱有過高期望。畢竟，它們連“去年給媽媽買的相機”都記不住。

ATM-Bench數據集已在HuggingFace上線，包含完全人工標注的1069個QA對、多模態(tài)證據標注、NIAH大海撈針評估支持以及開箱即用的基準測試代碼。

(責任編輯：0882)

關閉

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳

相關新聞

今日熱點

頻道熱點