咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎溝通鴻溝影響效果(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-02-11 16:44:27 澎湃新聞

作者們指出，與之相比，醫(yī)生之所以能診斷患者，不僅是因為他們知識豐富，更因為他們知道要問什么問題。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。研究者們還發(fā)現(xiàn)，即使AI系統(tǒng)給出了正確建議，人類也不一定會采納。參與者平均列出1.33個醫(yī)學(xué)診斷作為他們的最終答案，而它們的準(zhǔn)確率僅為38.7%。相比之下，大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。

除了溝通不暢和判斷失誤，研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下，大語言模型提供了正確的初始診斷，但當(dāng)患者添加更多細(xì)節(jié)后，它反而改口提出了錯誤的建議。在另一些極端案例中，同樣的AI對相似的癥狀描述給出了完全相反的建議。比如，兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀，包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息，而另一個則建議“立即呼救護(hù)車”。

在人類醫(yī)生的訓(xùn)練邏輯中，通過資格考試是上崗的第一步。但該研究的作者們指出，對于AI來說，考試中的成績并不與它們在現(xiàn)實中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做，準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實互動中的表現(xiàn)。在一些場景中，AI做題的正確率高于80%，而在患者實驗中面對相同問題，準(zhǔn)確率卻低于20%。

研究團(tuán)隊還測試了用AI分別模擬患者和醫(yī)生進(jìn)行對話是否能反映真實情況。這是一種在不少研究中很流行的基準(zhǔn)測試，不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實互動。但該研究的結(jié)果顯示，模擬患者的表現(xiàn)不僅總體上優(yōu)于真實用戶，而且這種優(yōu)勢與真實用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說，模擬互動無法預(yù)測真實互動是成功還是失敗。

關(guān)閉

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎 溝通鴻溝影響效果(2)

相關(guān)新聞

今日熱點

頻道熱點

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜嗎溝通鴻溝影響效果(2)