你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳。ATM-Bench 將“個人AI助手是否真的記得你”這一問題轉化為一個研究測試基準。結果顯示,專用記憶智能體系統(tǒng)的準確率普遍低于20%,而通用智能體如OpenClaw、Codex和Claude Code的最高準確率也不到40%。
設想一個場景:媽媽問:“你上次去日本旅行幫我買的相機還在保修期內嗎?”對人類來說,這并不難,可以通過查看收據、照片或郵件來回憶。但對當前的AI來說,這類問題卻相當復雜。
劍橋大學的研究團隊開源了面向AI個人助理的長期記憶基準測試ATM-Bench。該測試評估AI在面對一個人多年真實生活數據時能否記住相關信息。實驗結果不理想,在ATM-Bench-Hard基準上,熱門開源智能體OpenClaw僅達到25.4%的準確率;編程智能體標桿Claude Code也只有33.8%。多數開源專用記憶系統(tǒng)準確率甚至低于20%。
過去已有不少工作評估AI的記憶能力,例如LoCoMo、LongMemEval等,但這些大多聚焦于對話歷史。而真實世界中的個人記憶分散在照片、視頻和郵件中,時間跨度可能長達數年且互相之間并不一致。為此,ATM-Bench提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。其關鍵特征包括時間跨度約4年,覆蓋圖像、視頻、郵件三類模態(tài),超過一萬條記憶數據,且這些數據來自真實個人生活而非合成對話。圖像和視頻數據包含地點、時間等元數據,地點遍布四大洲。此外,還包括1000多條完全人工標注的問題、答案與證據。
ATM-Bench的核心難點在于個性化指代、多來源拼接、記憶沖突和元數據噪音。例如,個性化引用解析需要判斷“Grace”是朋友、家人還是寵物,并在圖片或視頻中識別出這個對象。證據沖突則涉及預訂金額和最終發(fā)票金額不一致的情況。看不見的線索,如從郵件中找到與Fancett餐廳相關的預訂信息,再跨模態(tài)找到同一時段的照片,最后從視覺內容中判斷點了什么菜,這些都需要AI具備跨模態(tài)處理能力。
實驗結果表明,即使是最強的通用智能體系統(tǒng)表現也不佳。表現最好的Codex僅有39.7%的準確率,Claude Code + Opus 4.6為33.8%,OpenCode(Kimi K2.5)為30.3%,OpenClaw(Kimi K2.5)為25.4%。盡管這些系統(tǒng)擁有完整的代碼執(zhí)行能力和文件系統(tǒng)訪問權限,但在長期個性化記憶問答方面仍顯得力不從心。
雖然ATM-Bench的實驗結果不盡如人意,但研究團隊認為這為未來的長期記憶機制與個性化AI助手的研究開辟了新的方向。工具鏈再完善、模型再強大,也彌補不了記憶架構上的根本缺陷。只有當AI能夠像人類一樣在數年的記憶長河中準確檢索、關聯和推理時,我們才能真正實現“個性化AI”。在此之前,我們不應對其記憶能力抱有過高期望。畢竟,它們連“去年給媽媽買的相機”都記不住。
ATM-Bench數據集已在HuggingFace上線,包含完全人工標注的1069個QA對、多模態(tài)證據標注、NIAH大海撈針評估支持以及開箱即用的基準測試代碼。
三八節(jié)這個周末,深圳騰訊大廈樓下近千人排隊公益安裝OpenClaw,閑魚上500塊一次的上門部署服務供不應求。圍繞OpenClaw的討論已經分裂成兩個陣營
2026-03-11 15:43:12你的工資能養(yǎng)龍蝦嗎3月25日,北京的朝霞早早出現,用耀眼的光芒點亮了明媚的春光。在通勤的路上,不妨聽一首劉宇的《時光會記得》,這首歌提醒我們時間會記住所有的努力。愿你擁有一個美好又難忘的周三。今天的北京確實很美
2026-03-25 12:25:05用劉宇的歌聲打開北京朝霞