你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-04-21 14:41:12 新浪財經

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳。ATM-Bench 將“個人AI助手是否真的記得你”這一問題轉化為一個研究測試基準。結果顯示，專用記憶智能體系統(tǒng)的準確率普遍低于20%，而通用智能體如OpenClaw、Codex和Claude Code的最高準確率也不到40%。

設想一個場景：媽媽問：“你上次去日本旅行幫我買的相機還在保修期內嗎？”對人類來說，這并不難，可以通過查看收據(jù)、照片或郵件來回憶。但對當前的AI來說，這類問題卻相當復雜。

劍橋大學的研究團隊開源了面向AI個人助理的長期記憶基準測試ATM-Bench。該測試評估AI在面對一個人多年真實生活數(shù)據(jù)時能否記住相關信息。實驗結果不理想，在ATM-Bench-Hard基準上，熱門開源智能體OpenClaw僅達到25.4%的準確率；編程智能體標桿Claude Code也只有33.8%。多數(shù)開源專用記憶系統(tǒng)準確率甚至低于20%。

過去已有不少工作評估AI的記憶能力，例如LoCoMo、LongMemEval等，但這些大多聚焦于對話歷史。而真實世界中的個人記憶分散在照片、視頻和郵件中，時間跨度可能長達數(shù)年且互相之間并不一致。為此，ATM-Bench提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。其關鍵特征包括時間跨度約4年，覆蓋圖像、視頻、郵件三類模態(tài)，超過一萬條記憶數(shù)據(jù)，且這些數(shù)據(jù)來自真實個人生活而非合成對話。圖像和視頻數(shù)據(jù)包含地點、時間等元數(shù)據(jù)，地點遍布四大洲。此外，還包括1000多條完全人工標注的問題、答案與證據(jù)。

ATM-Bench的核心難點在于個性化指代、多來源拼接、記憶沖突和元數(shù)據(jù)噪音。例如，個性化引用解析需要判斷“Grace”是朋友、家人還是寵物，并在圖片或視頻中識別出這個對象。證據(jù)沖突則涉及預訂金額和最終發(fā)票金額不一致的情況?？床灰姷木€索，如從郵件中找到與Fancett餐廳相關的預訂信息，再跨模態(tài)找到同一時段的照片，最后從視覺內容中判斷點了什么菜，這些都需要AI具備跨模態(tài)處理能力。

12 全文共 2 頁下一頁

關閉

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳

相關新聞

今日熱點

頻道熱點