你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳。ATM-Bench 將“個人AI助手是否真的記得你”這一問題轉化為一個研究測試基準。結果顯示,專用記憶智能體系統(tǒng)的準確率普遍低于20%,而通用智能體如OpenClaw、Codex和Claude Code的最高準確率也不到40%。
設想一個場景:媽媽問:“你上次去日本旅行幫我買的相機還在保修期內嗎?”對人類來說,這并不難,可以通過查看收據(jù)、照片或郵件來回憶。但對當前的AI來說,這類問題卻相當復雜。
劍橋大學的研究團隊開源了面向AI個人助理的長期記憶基準測試ATM-Bench。該測試評估AI在面對一個人多年真實生活數(shù)據(jù)時能否記住相關信息。實驗結果不理想,在ATM-Bench-Hard基準上,熱門開源智能體OpenClaw僅達到25.4%的準確率;編程智能體標桿Claude Code也只有33.8%。多數(shù)開源專用記憶系統(tǒng)準確率甚至低于20%。
過去已有不少工作評估AI的記憶能力,例如LoCoMo、LongMemEval等,但這些大多聚焦于對話歷史。而真實世界中的個人記憶分散在照片、視頻和郵件中,時間跨度可能長達數(shù)年且互相之間并不一致。為此,ATM-Bench提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。其關鍵特征包括時間跨度約4年,覆蓋圖像、視頻、郵件三類模態(tài),超過一萬條記憶數(shù)據(jù),且這些數(shù)據(jù)來自真實個人生活而非合成對話。圖像和視頻數(shù)據(jù)包含地點、時間等元數(shù)據(jù),地點遍布四大洲。此外,還包括1000多條完全人工標注的問題、答案與證據(jù)。
ATM-Bench的核心難點在于個性化指代、多來源拼接、記憶沖突和元數(shù)據(jù)噪音。例如,個性化引用解析需要判斷“Grace”是朋友、家人還是寵物,并在圖片或視頻中識別出這個對象。證據(jù)沖突則涉及預訂金額和最終發(fā)票金額不一致的情況??床灰姷木€索,如從郵件中找到與Fancett餐廳相關的預訂信息,再跨模態(tài)找到同一時段的照片,最后從視覺內容中判斷點了什么菜,這些都需要AI具備跨模態(tài)處理能力。
三八節(jié)這個周末,深圳騰訊大廈樓下近千人排隊公益安裝OpenClaw,閑魚上500塊一次的上門部署服務供不應求。圍繞OpenClaw的討論已經分裂成兩個陣營
2026-03-11 15:43:12你的工資能養(yǎng)龍蝦嗎