BitcoinWorld
突破性哈佛研究:AI診斷準確率超越急診室醫生
一項突破性的哈佛研究揭示,在某些臨床情境下,AI提供的診斷比急診室醫生更為準確,標誌著醫療人工智慧領域的重要里程碑。這項研究發表於《Science》期刊,證明OpenAI的大型語言模型在真實急診室案例的患者診斷中,表現優於人類醫師。
來自哈佛醫學院和貝斯以色列女執事醫療中心的研究人員進行了一系列實驗,評估OpenAI模型與人類醫生的比較結果。研究聚焦於76名曾就診於貝斯以色列急診室的患者。兩名主治醫師提供診斷,同時OpenAI的o1和4o模型也各自生成診斷結果。隨後,另外兩名主治醫師在不知道診斷來源是人類還是AI的情況下,對所有診斷進行評估。
結果令人矚目。在每個診斷節點,o1模型的表現均略優於或與兩名主治醫師持平。4o模型的表現同樣強勁。差異在急診室初始分診期間最為明顯,此時資訊匱乏且緊迫性高。
在分診案例中,o1模型有67%的情況提供了完全準確或非常接近的診斷。其中一名醫師達到55%,另一名醫師達到50%。這代表診斷準確率增加了12至17個百分點。
研究團隊強調,他們沒有對數據進行預處理。AI模型接收的是每次診斷時電子病歷中所提供的相同資訊。這一方式確保了人機推理之間的公平比較。
Arjun Manrai是哈佛醫學院AI實驗室的負責人,也是本研究的首席作者之一,他在新聞稿中表示:「我們幾乎針對所有基準對AI模型進行了測試,它超越了此前的模型以及我們的醫師基準線。」
OpenAI的o1和4o等大型語言模型在處理基於文字的醫療資訊方面展現出卓越的能力。然而,該研究並未聲稱AI已準備好在急診室做出生死攸關的決策。相反,研究強調迫切需要進行前瞻性試驗,以在真實的患者照護環境中評估這些技術。
研究人員也指出了侷限性。他們僅研究了模型在基於文字的資訊下的表現。現有研究表明,目前的基礎模型在處理非文字輸入(如醫學影像或患者生命徵象)的推理方面能力較為有限。
貝斯以色列醫院醫生兼共同首席作者Adam Rodman告訴《衛報》,目前尚無正式的框架來追究AI診斷的責任。他強調,患者仍然希望由人類引導他們做出生死攸關的決策和艱難的治療選擇。
急診醫學需要在資訊有限的情況下迅速做出準確的決策。研究表明,AI可以作為急診室醫師強而有力的決策支援工具。透過提供準確的診斷建議,AI有助於減少診斷錯誤並改善患者預後。
然而,將AI整合到臨床工作流程中面臨挑戰。醫生必須信任這項技術,了解其侷限性,並對患者照護保持最終責任。研究呼籲在廣泛採用前進行審慎評估。
研究比較了兩個OpenAI模型:o1和4o。o1模型在所有診斷節點上均持續優於4o。這表明更新、更先進的模型在醫療應用中可能提供更高的準確率。
表格:初始分診的診斷準確率
| 診斷來源 | 準確率 |
|---|---|
| OpenAI o1模型 | 67% |
| 醫師1 | 55% |
| 醫師2 | 50% |
| OpenAI 4o模型 | 與醫師相當 |
這些結果凸顯了AI在醫療領域的快速進步。然而,研究作者提醒不應過度解讀這些發現。樣本量較小,臨床情境也有限。
醫學專家的反應既有熱情也有謹慎。一些人將AI視為可使專家級診斷更普及的變革性工具。另一些人則擔憂對技術的過度依賴以及臨床判斷能力的侵蝕。
哈佛研究為日益增多的支持AI醫療潛力的證據體系增添了新內容。此前的研究已顯示AI在放射科、病理科和皮膚科表現良好。本研究將證據延伸至急診醫學這一高風險環境。
Manrai博士強調,AI模型幾乎針對所有基準進行了測試,且表現優於此前的模型。這表明AI不僅在特定情境中達到人類水準,更已超越人類表現。
這項研究引發了重要的倫理問題。當AI診斷出現錯誤時,誰應負責?如何在不損害患者信任的情況下將AI整合到臨床決策中?這些問題需要監管機構、醫療服務提供者和技術開發者審慎考量。
目前,針對AI診斷的責任追究尚無正式框架。Rodman指出,患者仍然希望由人類在生死攸關的決策中給予引導。這表明AI應作為人類專業知識的補充,而非替代。
研究作者呼籲進行前瞻性試驗,以在真實的患者照護環境中評估AI。此類試驗將提供關於AI有效性、安全性及對患者預後影響的更有力證據。
前瞻性試驗也有助於識別潛在的問題,例如演算法偏差或對AI的過度依賴。這些試驗將提供AI在不同患者群體和臨床情境中表現的數據。
研究人員計劃繼續這項工作,將研究擴展至更多患者和臨床機構。他們也計劃測試AI模型在非文字輸入(如醫學影像和實驗室結果)上的表現。
對患者而言,這項研究為更準確、更及時的診斷帶來了希望。對醫生而言,這提供了將AI作為決策支援工具加以利用的機會。然而,兩個群體都必須以務實的期望看待AI。
AI並非人類判斷的替代品。它是一種能夠提升診斷準確率的工具,尤其在急診室等高壓情境下更是如此。關鍵在於負責任地整合AI,確保它能補充而非削弱臨床專業知識。
哈佛研究提供了令人信服的證據,表明在某些情境下,AI提供的診斷比急診室醫生更為準確。OpenAI的o1模型在分診準確率上超越了人類醫師,展示了大型語言模型在醫療領域的潛力。然而,研究同時強調,在AI能夠廣泛應用於臨床環境之前,需要進行審慎評估、建立倫理框架並開展前瞻性試驗。隨著AI持續演進,其在醫學中的角色可能將不斷擴大,但人類監督對於患者安全和信任仍不可或缺。
Q1:哈佛研究如何比較AI與人類醫生?
A1:研究人員將OpenAI的o1和4o模型在76個急診室案例中的診斷結果,與兩名主治醫師的診斷進行比較。另外兩名醫師在不知道診斷來源的情況下對所有診斷進行評估。
Q2:研究中AI模型的準確率是多少?
A2:在分診案例中,o1模型有67%的情況提供了完全準確或非常接近的診斷,而兩名人類醫師分別為55%和50%。
Q3:AI是否已準備好取代急診室醫生?
A3:尚未。研究並未聲稱AI已準備好做出真實世界的臨床決策。研究呼籲進行前瞻性試驗,並強調人類監督和責任追究的必要性。
Q4:AI在醫療診斷中有哪些侷限性?
A4:目前的AI模型僅限於處理基於文字的資訊,在處理醫學影像或患者生命徵象等非文字輸入時,表現可能較差。研究也指出缺乏正式的責任追究框架。
Q5:這對醫療保健的未來意味著什麼?
A5:AI有潛力提升診斷準確率並支援臨床決策。然而,在廣泛採用之前,需要審慎的整合、倫理準則以及進一步的研究。
This Post AI Diagnosis Accuracy Surpasses Emergency Room Doctors In Groundbreaking Harvard Study First Appeared On BitcoinWorld.


