电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎 溝通鴻溝影響效果

關(guān)鍵詞:
2026-02-11 16:44:27  澎湃新聞

AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。關(guān)于AI醫(yī)生是否真的可靠,以及其性能能否僅靠增加算力來提升的問題,2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項新研究顯示,對于普通人來說,答案是否定的。

該研究中,來自牛津大學(xué)等機(jī)構(gòu)的研究人員招募了1298名英國參與者,在10個醫(yī)學(xué)場景中做出判斷,比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機(jī)構(gòu)就診,以及可能患的是什么疾病。參與者被隨機(jī)分配到四個實(shí)驗(yàn)組:三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策,而對照組則使用他們平時在家會用的任何方法,主要是互聯(lián)網(wǎng)搜索。

當(dāng)研究人員直接將醫(yī)學(xué)場景的信息輸入給這些大語言模型時,它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學(xué)診斷,在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異,說明它們確實(shí)掌握了大量的醫(yī)學(xué)信息。

然而,當(dāng)普通人使用這些相同的模型時,情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差,只有不到34.5%的準(zhǔn)確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組,兩者的準(zhǔn)確率均為44%左右。換句話說,讓患者自己咨詢AI醫(yī)生,結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團(tuán)隊分析了參與者與大語言模型之間的對話記錄,發(fā)現(xiàn)了一系列系統(tǒng)性的問題。信息傳遞的不通暢是一個主要問題。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間,遠(yuǎn)低于它們單獨(dú)工作時的表現(xiàn),這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。超過一半的患者在最初描述癥狀時沒有提供完整的信息,例如只說“頭很疼”,而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候,患者會在AI的提問下逐步補(bǔ)充信息,但有時候他們根本不補(bǔ)充。

作者們指出,與之相比,醫(yī)生之所以能診斷患者,不僅是因?yàn)樗麄冎R豐富,更因?yàn)樗麄冎酪獑柺裁磫栴}。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。研究者們還發(fā)現(xiàn),即使AI系統(tǒng)給出了正確建議,人類也不一定會采納。參與者平均列出1.33個醫(yī)學(xué)診斷作為他們的最終答案,而它們的準(zhǔn)確率僅為38.7%。相比之下,大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。

除了溝通不暢和判斷失誤,研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下,大語言模型提供了正確的初始診斷,但當(dāng)患者添加更多細(xì)節(jié)后,它反而改口提出了錯誤的建議。在另一些極端案例中,同樣的AI對相似的癥狀描述給出了完全相反的建議。比如,兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息,而另一個則建議“立即呼救護(hù)車”。

在人類醫(yī)生的訓(xùn)練邏輯中,通過資格考試是上崗的第一步。但該研究的作者們指出,對于AI來說,考試中的成績并不與它們在現(xiàn)實(shí)中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做,準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實(shí)互動中的表現(xiàn)。在一些場景中,AI做題的正確率高于80%,而在患者實(shí)驗(yàn)中面對相同問題,準(zhǔn)確率卻低于20%。

研究團(tuán)隊還測試了用AI分別模擬患者和醫(yī)生進(jìn)行對話是否能反映真實(shí)情況。這是一種在不少研究中很流行的基準(zhǔn)測試,不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實(shí)互動。但該研究的結(jié)果顯示,模擬患者的表現(xiàn)不僅總體上優(yōu)于真實(shí)用戶,而且這種優(yōu)勢與真實(shí)用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說,模擬互動無法預(yù)測真實(shí)互動是成功還是失敗。

研究者們認(rèn)為,兩個大語言模型之間的對話往往更加結(jié)構(gòu)化、信息傳遞更順暢,它們知道要問什么,也知道如何有效地傳達(dá)醫(yī)學(xué)概念。而人類患者則帶來了真實(shí)世界的復(fù)雜性:焦慮、知識不足、對癥狀的不同理解,以及無法預(yù)測的信息共享模式。

這項研究觸及了AI醫(yī)療中的一個根本問題——對于大語言模型來說,醫(yī)學(xué)知識的廣泛性和準(zhǔn)確性并不是在真實(shí)醫(yī)療場景中成功的充分條件。真實(shí)世界的醫(yī)療互動涉及復(fù)雜交互,無法通過傳統(tǒng)的醫(yī)學(xué)基準(zhǔn)測試來捕捉。

這些發(fā)現(xiàn)對那些正在期待AI醫(yī)療“革命”的人來說是一個清醒的提示。大語言模型或許永遠(yuǎn)不會取代醫(yī)生的臨床判斷,但它們或許能在更加謹(jǐn)慎、透明的設(shè)計下,成為有用的決策輔助工具——前提是我們解決好人與機(jī)器之間的溝通問題。

(責(zé)任編輯:zhangxiaohua)
關(guān)閉

95后姑娘棄互聯(lián)網(wǎng) 高薪入職刑警隊任探長

95后姑娘辭掉高薪工作成刑警探長2026-03-02 15:17:56

寶媽在垃圾桶里翻出帶錢紅包 孩子無意間“扔錢如流水”

寶媽在垃圾桶里翻出帶錢紅包2026-03-02 15:12:19

男子幫朋友抓羊時猝死 家屬索賠62萬 善意背后的法理拷問

男子幫朋友抓羊時猝死家屬索賠62萬2026-03-02 14:55:48

中國海軍絲路方舟號醫(yī)院船訪問智利!

中國海軍絲路方舟號醫(yī)院船訪問智利2026-03-02 13:23:29

新人結(jié)婚突降大雪 親友冒雪打傘吃席

新人結(jié)婚突降大雪 親友冒雪打傘吃席2026-03-02 14:50:53

美媒都看不下去:先開戰(zhàn)再編理由,誰像你這樣?美軍基地真有那么強(qiáng)?

美媒都看不下去,先開戰(zhàn)再編理由,誰像你這樣2026-03-02 14:13:52

伊朗高官:絕不允許國家被分裂 團(tuán)結(jié)抵御外部威脅

伊朗高官,絕不允許國家被分裂2026-03-02 14:01:48

馬克龍翻臉如翻書!法國派遣航母赴中東

馬克龍翻臉如翻書!法國派遣航母赴中東2026-03-02 13:28:19

人民幣史詩級大漲背后藏著哪些機(jī)會 數(shù)據(jù)與邏輯解析

人民幣史詩級大漲背后藏著哪些機(jī)會2026-03-02 14:49:30

美軍F-15戰(zhàn)機(jī)在科威特墜毀 飛行員彈射逃生

美軍F-15戰(zhàn)機(jī)在科威特墜毀2026-03-02 14:58:02

斯塔默:允許美國使用英方軍事基地應(yīng)對伊朗威脅

斯塔默,允許美國使用英方軍事基地2026-03-02 15:02:43

伊朗為何竟無法保護(hù)最高領(lǐng)袖?中東會大亂嗎? 反情報與防空能力薄弱

伊朗為何竟無法保護(hù)最高領(lǐng)袖,中東會大亂嗎2026-03-02 14:57:03

軍車鳴笛回應(yīng)敬禮男孩 純粹敬意感動網(wǎng)友

軍車鳴笛回應(yīng)敬禮男孩2026-03-02 14:19:08

烏克蘭真能拿到核彈嗎 英法秘密援助?

烏克蘭真能拿到核彈嗎2026-03-02 14:16:31

豆瓣發(fā)致歉信 運(yùn)營失誤致巨額損失

豆瓣發(fā)致歉信2026-03-02 14:51:16

一架美軍戰(zhàn)機(jī)在科威特墜毀 飛行員彈射逃生

一架美軍戰(zhàn)機(jī)在科威特墜毀2026-03-02 14:18:32

寶媽在垃圾桶里翻出帶錢紅包 孩子無意間“扔錢如流水”

寶媽在垃圾桶里翻出帶錢紅包2026-03-02 15:12:19

朱婷狂砍20分 打出最好季后賽表現(xiàn) 助力球隊先拔頭籌

朱婷狂砍20分打出最好季后賽表現(xiàn)2026-03-02 14:51:38

特朗普最新警告:美國或死人,“我們將復(fù)仇” 美伊沖突升級

特朗普最新警告,美國或死人,我們將復(fù)仇2026-03-02 15:05:51

伊朗之戰(zhàn)給世界的5個深刻教訓(xùn) 內(nèi)奸與誤判的代價

伊朗之戰(zhàn)給世界的5個深刻教訓(xùn)2026-03-02 14:14:19

美中央司令部:伊方的美軍傷亡數(shù)字不實(shí) 伊朗聲明遭駁斥

美中央司令部,伊方的美軍傷亡數(shù)字不實(shí)2026-03-02 13:21:25

鄭浩:特朗普對伊朗原計劃落空 軍事與政治目標(biāo)受阻

鄭浩,特朗普對伊朗原計劃落空2026-03-02 15:07:59

特朗普稱伊軍若不投降必死無疑 美以聯(lián)合行動升級

特朗普稱伊軍若不投降必死無疑2026-03-02 13:23:07

以軍襲擊黎巴嫩已致31死149傷 沖突升級引發(fā)關(guān)注

以軍襲擊黎巴嫩已致31死149傷2026-03-02 14:36:38

黑旗升起戰(zhàn)爭升級!衛(wèi)星視角看美伊開戰(zhàn)第二日:哈梅內(nèi)伊殞命,美軍多個基地被襲擊!

黑旗升起戰(zhàn)爭升級,衛(wèi)星視角看美伊開戰(zhàn)第二日,哈梅內(nèi)伊殞命,美軍多個基地被襲擊2026-03-02 13:59:43

95后姑娘棄互聯(lián)網(wǎng) 高薪入職刑警隊任探長

95后姑娘辭掉高薪工作成刑警探長2026-03-02 15:17:56

特朗普說伊朗許多人打電話投降 美以協(xié)同打擊伊朗

特朗普說伊朗許多人打電話投降2026-03-02 13:27:39

德黑蘭飛烏魯木齊視頻引關(guān)注 真相揭秘 航線與事實(shí)不符

德黑蘭飛烏魯木齊視頻引關(guān)注真相揭秘2026-03-02 15:06:20

中東局勢激變!現(xiàn)貨金銀價格一度漲逾2%,持續(xù)上沖動能是否充足? 避險情緒助推上漲

中東局勢激變,現(xiàn)貨金銀價格一度漲逾2%,持續(xù)上沖動能是否充足2026-03-02 15:08:29

中俄外長通話討論伊朗局勢 共商中東和平穩(wěn)定之道

中俄外長通話討論伊朗局勢2026-03-02 14:25:02

萬斯曾說美國卷入中東紛爭是因總統(tǒng)太蠢 樂觀預(yù)測遭質(zhì)疑

萬斯曾說美國卷入中東紛爭是因總統(tǒng)太蠢2026-03-02 13:28:01

大V:宗馥莉的刀刃持續(xù)向內(nèi) 娃哈哈系企業(yè)大清洗

大V,宗馥莉的刀刃持續(xù)向內(nèi)2026-03-02 14:55:17

相關(guān)新聞