咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎溝通鴻溝影響效果

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-02-11 16:44:27 澎湃新聞

AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。關(guān)于AI醫(yī)生是否真的可靠，以及其性能能否僅靠增加算力來提升的問題，2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項新研究顯示，對于普通人來說，答案是否定的。

該研究中，來自牛津大學(xué)等機構(gòu)的研究人員招募了1298名英國參與者，在10個醫(yī)學(xué)場景中做出判斷，比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機構(gòu)就診，以及可能患的是什么疾病。參與者被隨機分配到四個實驗組：三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策，而對照組則使用他們平時在家會用的任何方法，主要是互聯(lián)網(wǎng)搜索。

當(dāng)研究人員直接將醫(yī)學(xué)場景的信息輸入給這些大語言模型時，它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學(xué)診斷，在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異，說明它們確實掌握了大量的醫(yī)學(xué)信息。

然而，當(dāng)普通人使用這些相同的模型時，情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差，只有不到34.5%的準(zhǔn)確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組，兩者的準(zhǔn)確率均為44%左右。換句話說，讓患者自己咨詢AI醫(yī)生，結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團隊分析了參與者與大語言模型之間的對話記錄，發(fā)現(xiàn)了一系列系統(tǒng)性的問題。信息傳遞的不通暢是一個主要問題。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間，遠(yuǎn)低于它們單獨工作時的表現(xiàn)，這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。超過一半的患者在最初描述癥狀時沒有提供完整的信息，例如只說“頭很疼”，而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候，患者會在AI的提問下逐步補充信息，但有時候他們根本不補充。

12 3 全文共 3 頁下一頁

關(guān)閉

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎 溝通鴻溝影響效果

相關(guān)新聞

今日熱點

頻道熱點

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎溝通鴻溝影響效果