臺灣大學公共衛生學院李達宇副教授攜手哈佛大學公共衛生學院等國際機構,對生成式人工智慧(Generative AI)在中風照護資訊提供上的表現進行系統性評估。
結果顯示,即便技術突飛猛進,當置身於需要即時判斷、攸關性命安全、並高度依賴專科判斷的臨床現場時,現有的聊天式 AI 工具仍難以跨越「安全」與「可靠」的門檻。這項研究已於 2025 年 7 月刊登於《npj Digital Medicine》。
研究團隊選擇了 ChatGPT、Claude 與 Gemini 三款主流大型語言模型(LLMs),模擬多種貼近臨床情境的中風照護場景,並運用多種提示設計(prompt engineering)策略,全面評估其在準確性、同理性、可操作性與安全性等面向的表現。研究結果顯示:
所有系統在「提供患者可直接採取行動的建議」方面表現不一,尤其在中風治療等高風險階段,錯誤或不完整的回應時有所見。
雖有部分提示策略能提升同理性或方向性,但整體而言,現有 AI 系統在協助臨床決策的角色上仍顯薄弱。
研究團隊指出:「生成式AI在一般健康資訊傳遞上或具潛力,然而在如中風這類需即時專業介入的情境下,其可靠性仍待大幅提升。」
本研究提出兩項關鍵政策與實務啟示:
1.高風險醫療場景下導入AI須謹慎為之:在醫療資源有限或專科人力短缺的地區,AI雖可擴大照護可及性,但在正式納入臨床或公共衛生決策前,必須通過嚴謹的臨床驗證與監管程序。
2.使用者提問能力與應用情境設計同樣關鍵:除了技術本身的精進,也應協助民眾學習「如何發問」,以獲得更安全、更具實用價值的回應,並建立有臨床專業監督的互動流程。
中風是全球第二大死因、第三大致殘原因,對低社經族群的衝擊尤為深遠。本研究不僅提供了生成式AI在醫療資訊支援領域的現況評估,也向政策制定者、醫療機構、科技開發者與社會大眾提出提醒:即便生成式AI充滿創新潛力,在這些攸關生命與專業判斷的場域中,其表現仍未臻成熟,應以審慎之心對待其應用。
展望未來,研究團隊將持續推進相關研究,聚焦於更精細的提示工程(prompt engineering)與語境工程(context engineering),結合領域專屬的模型微調(domain-specific fine-tuning)及多模態互動式設計(multimodal and interactive design)等策略,提升大型語言模型在患者健康資訊提供上的準確性、可理解性與個人化表現。
團隊亦強調,醫療照護的複雜性與高度專業性,決定了臨床應用迫切需要專為健康與臨床語境設計的領域導向大型語言模型(health domain–specific LLMs),而非通用型模型的簡單延伸。唯有如此,AI方能細膩捕捉臨床決策的多重脈絡與患者狀況的微妙差異。
本研究的終極目標,在於協助患者與照護者學會提出更精準、具臨床意義的健康問題,引導AI產生更可靠、更有價值的回應,同時減少錯誤與誤導資訊可能帶來的風險。透過這樣的努力,生成式AI不僅是彌合健康資訊落差的橋梁,更可在不取代專業判斷的前提下,化身為守護全民健康與優化醫療決策的重要力量。