AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。關(guān)于AI醫(yī)生是否真的可靠,以及其性能能否僅靠增加算力來提升的問題,2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項新研究顯示,對于普通人來說,答案是否定的。
該研究中,來自牛津大學(xué)等機構(gòu)的研究人員招募了1298名英國參與者,在10個醫(yī)學(xué)場景中做出判斷,比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機構(gòu)就診,以及可能患的是什么疾病。參與者被隨機分配到四個實驗組:三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策,而對照組則使用他們平時在家會用的任何方法,主要是互聯(lián)網(wǎng)搜索。
當(dāng)研究人員直接將醫(yī)學(xué)場景的信息輸入給這些大語言模型時,它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學(xué)診斷,在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異,說明它們確實掌握了大量的醫(yī)學(xué)信息。
然而,當(dāng)普通人使用這些相同的模型時,情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差,只有不到34.5%的準(zhǔn)確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組,兩者的準(zhǔn)確率均為44%左右。換句話說,讓患者自己咨詢AI醫(yī)生,結(jié)果可能還不如上網(wǎng)搜索。
這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團隊分析了參與者與大語言模型之間的對話記錄,發(fā)現(xiàn)了一系列系統(tǒng)性的問題。信息傳遞的不通暢是一個主要問題。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間,遠(yuǎn)低于它們單獨工作時的表現(xiàn),這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。超過一半的患者在最初描述癥狀時沒有提供完整的信息,例如只說“頭很疼”,而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候,患者會在AI的提問下逐步補充信息,但有時候他們根本不補充。
近日,2026年米蘭-科爾蒂納冬奧會各項賽事激烈展開。雷鳥創(chuàng)新攜多款A(yù)I+AR智能眼鏡產(chǎn)品亮相這場全球頂尖體育盛會,共赴科技與奧運之約
2026-02-10 08:01:47冬奧會引入AI輔助判罰