电竞下注-中国电竞赛事及体育赛事平台

中華網 china.com

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳

關鍵詞:
2026-04-21 14:41:12  新浪財經

你的“龍蝦”真記得你嗎 AI記憶能力測試結果不佳。ATM-Bench 將“個人AI助手是否真的記得你”這一問題轉化為一個研究測試基準。結果顯示,專用記憶智能體系統(tǒng)的準確率普遍低于20%,而通用智能體如OpenClaw、Codex和Claude Code的最高準確率也不到40%。

設想一個場景:媽媽問:“你上次去日本旅行幫我買的相機還在保修期內嗎?”對人類來說,這并不難,可以通過查看收據、照片或郵件來回憶。但對當前的AI來說,這類問題卻相當復雜。

劍橋大學的研究團隊開源了面向AI個人助理的長期記憶基準測試ATM-Bench。該測試評估AI在面對一個人多年真實生活數據時能否記住相關信息。實驗結果不理想,在ATM-Bench-Hard基準上,熱門開源智能體OpenClaw僅達到25.4%的準確率;編程智能體標桿Claude Code也只有33.8%。多數開源專用記憶系統(tǒng)準確率甚至低于20%。

過去已有不少工作評估AI的記憶能力,例如LoCoMo、LongMemEval等,但這些大多聚焦于對話歷史。而真實世界中的個人記憶分散在照片、視頻和郵件中,時間跨度可能長達數年且互相之間并不一致。為此,ATM-Bench提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。其關鍵特征包括時間跨度約4年,覆蓋圖像、視頻、郵件三類模態(tài),超過一萬條記憶數據,且這些數據來自真實個人生活而非合成對話。圖像和視頻數據包含地點、時間等元數據,地點遍布四大洲。此外,還包括1000多條完全人工標注的問題、答案與證據。

ATM-Bench的核心難點在于個性化指代、多來源拼接、記憶沖突和元數據噪音。例如,個性化引用解析需要判斷“Grace”是朋友、家人還是寵物,并在圖片或視頻中識別出這個對象。證據沖突則涉及預訂金額和最終發(fā)票金額不一致的情況。看不見的線索,如從郵件中找到與Fancett餐廳相關的預訂信息,再跨模態(tài)找到同一時段的照片,最后從視覺內容中判斷點了什么菜,這些都需要AI具備跨模態(tài)處理能力。

實驗結果表明,即使是最強的通用智能體系統(tǒng)表現也不佳。表現最好的Codex僅有39.7%的準確率,Claude Code + Opus 4.6為33.8%,OpenCode(Kimi K2.5)為30.3%,OpenClaw(Kimi K2.5)為25.4%。盡管這些系統(tǒng)擁有完整的代碼執(zhí)行能力和文件系統(tǒng)訪問權限,但在長期個性化記憶問答方面仍顯得力不從心。

雖然ATM-Bench的實驗結果不盡如人意,但研究團隊認為這為未來的長期記憶機制與個性化AI助手的研究開辟了新的方向。工具鏈再完善、模型再強大,也彌補不了記憶架構上的根本缺陷。只有當AI能夠像人類一樣在數年的記憶長河中準確檢索、關聯和推理時,我們才能真正實現“個性化AI”。在此之前,我們不應對其記憶能力抱有過高期望。畢竟,它們連“去年給媽媽買的相機”都記不住。

ATM-Bench數據集已在HuggingFace上線,包含完全人工標注的1069個QA對、多模態(tài)證據標注、NIAH大海撈針評估支持以及開箱即用的基準測試代碼。

(責任編輯:0882)
關閉

演員盧昱曉發(fā)文向《給阿嬤的情書》致歉:我的行為傷害了電影創(chuàng)作者的心血 屏攝事件引發(fā)熱議

演員盧昱曉發(fā)文向給阿嬤的情書致歉,我的行為傷害了電影創(chuàng)作者的心血2026-05-18 11:17:58

“澳車北上”累計超500萬輛次 通關高效順暢

澳車北上累計超500萬輛次2026-05-18 11:16:29

7人蒙面搶走2歲幼童 主謀是生父 家庭悲劇背后的冷漠與預謀

7人蒙面搶走2歲幼童主謀是生父2026-05-18 11:16:08

“澳車北上”累計超500萬輛次 通關高效順暢

澳車北上累計超500萬輛次2026-05-18 11:16:29

開封小伙兒在山東旅游時勇救跳湖老人 義舉溫暖人心

開封小伙兒在山東旅游時勇救跳湖老人2026-05-18 11:05:51

70城最新房價出爐 一線城市領漲

70城最新房價出爐2026-05-18 11:05:30

韓媒:勞資分歧仍未解 政府警告罷工風險

韓媒,勞資分歧仍未解2026-05-18 10:48:56

特朗普訪華后警告“臺獨” 美國不會為臺灣出兵

特朗普訪華后警告臺獨2026-05-18 10:34:48

演員盧昱曉發(fā)文向《給阿嬤的情書》致歉:我的行為傷害了電影創(chuàng)作者的心血 屏攝事件引發(fā)熱議

演員盧昱曉發(fā)文向給阿嬤的情書致歉,我的行為傷害了電影創(chuàng)作者的心血2026-05-18 11:17:58

廣西柳州5.2級地震現場直擊 多部門緊急響應救援

廣西柳州5,2級地震現場直擊2026-05-18 11:07:39

美國貿易代表再度炒作301調查 產能過剩成焦點

美國貿易代表再度炒作301調查2026-05-18 10:51:03

俄壯漢單臂舉起120公斤啞鈴,打破兩項世界紀錄

俄壯漢單臂舉起120公斤啞鈴2026-05-18 11:08:57

俄博主曝俄軍蘇-35擊落烏軍F-16 沉默默認事實

俄博主曝俄軍蘇-35擊落烏軍F-162026-05-18 10:35:34

國際油價突破110美元 加密貨幣市場全線下跌

國際油價突破110美元2026-05-18 10:49:41

美鷹派議員鼓動加大打擊伊朗:他們在?;ㄕ校涎訒r間

美鷹派議員鼓動加大打擊伊朗,他們在?;ㄕ?/span>2026-05-18 10:47:57

男子突然惡心嘔吐確診耳石癥 復位后仍需調理

男子突然惡心嘔吐確診耳石癥2026-05-18 11:09:42

馬克龍非洲行翻車 平等伙伴關系成空談

馬克龍非洲行翻車2026-05-18 10:52:46

黃仁勛怒懟核武比喻:全球10億人在用GPU 把顯卡當導彈簡直是不可理喻 反對AI芯片出口管制

黃仁勛怒懟核武比喻,全球10億人在用GPU把顯卡當導彈簡直是不可理喻2026-05-18 10:53:04

印度一加油站數百人持桶搶購互毆

印度數百人持油桶搶購燃油2026-05-18 10:49:20

離職業(yè)內工作人員為白鹿發(fā)聲 真誠溫柔獲贊

離職業(yè)內工作人員為白鹿發(fā)聲2026-05-18 11:11:28

大膽!印度男子偷走寺廟捐款箱現金

印度男子偷走寺廟捐款箱現金2026-05-18 11:12:45

專家談蘇-57擊落預警機傳聞 信息戰(zhàn)的心理博弈

專家談蘇-57擊落預警機傳聞2026-05-18 10:33:35

普京訪問中國,將主要聚焦三個方面 深化中俄戰(zhàn)略合作

普京訪問中國,將主要聚焦三個方面2026-05-18 10:31:03

普京訪問中國,將主要聚焦三個方面 深化中俄全面合作

普京訪問中國,將主要聚焦三個方面2026-05-18 10:31:35

指甲蓋大小的芯片能抗9000伏高壓 刷新世界紀錄

指甲蓋大小的芯片能抗9000伏高壓2026-05-18 11:13:21

博主曝俄蘇-35擊落烏軍F-16 烏克蘭沉默默認?

博主曝俄蘇-35擊落烏軍F-162026-05-18 10:26:54

7人蒙面搶走2歲幼童 主謀是生父 家庭悲劇背后的冷漠與預謀

7人蒙面搶走2歲幼童主謀是生父2026-05-18 11:16:08

韓國Z世代士兵涌入整容院 影響軍隊戰(zhàn)備狀態(tài)

韓國Z世代士兵涌入整容院2026-05-18 11:06:08

曝折疊屏iPhone試產受阻 鉸鏈問題成核心卡點

曝折疊屏iPhone試產受阻2026-05-18 11:09:20

這屆年輕人愛上逛博物館 文化體驗新潮流

這屆年輕人愛上逛博物館2026-05-18 11:13:05

默茨再次公開抨擊美國 引發(fā)美德關系惡化擔憂

默茨再次公開抨擊美國2026-05-18 10:54:51

黃仁勛痛斥將GPU比作核武器 類比荒謬

黃仁勛痛斥將GPU比作核武器2026-05-18 10:35:10

駝背的人臉會慢慢變大 堅持練背的人后來怎么樣了

駝背的人臉會慢慢變大2026-05-18 11:07:09

花3萬送娃進成長基地7天后被打骨折 求救紙條引發(fā)悲劇

花3萬送娃進成長基地7天后被打骨折2026-05-18 11:14:18

相關新聞