發表在《自然醫學》(Nature Medicine)雜誌上的一項新研究表明,人工智能(AI)在看診上表現平平,用AI幫助患者做健康決策,並不比其它方法(例如上網搜尋)更有效。
研究人員表示,這項研究意義重大,因為人們越來越多地轉向AI和聊天機械人尋求醫療建議,但目前缺少證據表明AI是一種更佳和更安全的方法。
這項研究由牛津大學互聯網研究所與一組醫生合作完成,他們設計了10種不同的醫療情景,涵蓋從普通感冒到危及生命的腦出血等各種情況。
研究人員首先選定了三個大型語言模型——OpenAI的Chat GPT-4o、Meta的Llama 3,和Cohere的Command R+進行測試,結果顯示這些AI工具識別出了94.9%的病情,此外還在56.3%的案例中選擇了正確的行動方案,例如呼叫救護車或建議患者看醫。
但在實地測試環節,AI的表現則遠遠不如理論。研究人員在英國招募了1298名參與者,讓他們分別使用AI、常用資源(例如互聯網搜索、自身經驗或英國國家醫療服務體系網站)來調查症狀並決定下一步行動。
結果顯示,參與者使用AI識別相關疾病的比例不足34.5%,而給出正確行動方案的比例也不足44.2%。這一表現與使用傳統工具的對照組相比並無優勢。
該論文的合著者、牛津大學副教授亞當‧馬赫迪(Adam Mahdi)表示,這項研究表明AI的理論與人類實際使用之間存在著的「巨大差距」。
「這些機械人可能擁有豐富的知識;然而,這些知識在與人類互動時並不總是能夠有效轉化。」他說,這意味著還需要開展更多研究來探究造成這種情況的原因。
研究團隊詳細分析了約30次交互,並得出結論:雖然人類常常提供不完整或錯誤的訊息,但AI也會產生誤導性或不正確的回覆。
例如,一位患者描述了蛛網膜下腔出血(一種危及生命的腦出血)的症狀,包括頸部僵硬、畏光和「有史以來最嚴重的頭痛」,AI正確地建議他去醫院就診。
而另一位患者描述了相同的症狀,但在提到頭痛時使用的是「劇烈」一詞,AI只是建議他躺在調淡光線的房間裏休息。
研究團隊計劃在不同國家、使用不同語言,並隨著時間的推移開展類似研究,以測試這是否會影響AI的性能。
該研究得到了數據公司Prolific、德國非牟利組織迪特‧施瓦茨基金會(Dieter Schwarz Stiftung)以及英國和美國政府的支持。
(本文依據了路透社的報道)#
-------------------
局勢持續演變
與您見證世界格局重塑
-------------------
🔔下載大紀元App 接收即時新聞通知:
🍎iOS:https://bit.ly/epochhkios
🤖Android:https://bit.ly/epochhkand
📰周末版實體報銷售點👇🏻
http://epochtimeshk.org/stores
















