作者們指出,與之相比,醫(yī)生之所以能診斷患者,不僅是因為他們知識豐富,更因為他們知道要問什么問題。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。研究者們還發(fā)現(xiàn),即使AI系統(tǒng)給出了正確建議,人類也不一定會采納。參與者平均列出1.33個醫(yī)學(xué)診斷作為他們的最終答案,而它們的準(zhǔn)確率僅為38.7%。相比之下,大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。
除了溝通不暢和判斷失誤,研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下,大語言模型提供了正確的初始診斷,但當(dāng)患者添加更多細(xì)節(jié)后,它反而改口提出了錯誤的建議。在另一些極端案例中,同樣的AI對相似的癥狀描述給出了完全相反的建議。比如,兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息,而另一個則建議“立即呼救護(hù)車”。
在人類醫(yī)生的訓(xùn)練邏輯中,通過資格考試是上崗的第一步。但該研究的作者們指出,對于AI來說,考試中的成績并不與它們在現(xiàn)實中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做,準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實互動中的表現(xiàn)。在一些場景中,AI做題的正確率高于80%,而在患者實驗中面對相同問題,準(zhǔn)確率卻低于20%。
研究團(tuán)隊還測試了用AI分別模擬患者和醫(yī)生進(jìn)行對話是否能反映真實情況。這是一種在不少研究中很流行的基準(zhǔn)測試,不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實互動。但該研究的結(jié)果顯示,模擬患者的表現(xiàn)不僅總體上優(yōu)于真實用戶,而且這種優(yōu)勢與真實用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說,模擬互動無法預(yù)測真實互動是成功還是失敗。
近日,2026年米蘭-科爾蒂納冬奧會各項賽事激烈展開。雷鳥創(chuàng)新攜多款A(yù)I+AR智能眼鏡產(chǎn)品亮相這場全球頂尖體育盛會,共赴科技與奧運(yùn)之約
2026-02-10 08:01:47冬奧會引入AI輔助判罰