中大與東南亞及英國學府共同研究 為大型語言模型在公共衞生研究中的角色帶來嶄新見解
香港中文大學(中大)醫學院與越南RMIT國際大學、新加坡國立大學及倫敦帝國學院合作進行兩項研究,探討ChatGPT等大型語言模型在公共衞生研究方面的潛力。研究團隊在首項研究中揭示ChatGPT能輔助公共衞生從業員開發數學模型,以制訂感染控制政策,標誌著傳染病流行病學的一大進步。然而,研究人員在第二項研究中發現,利用流通性不高的語言如越南語在大型語言模型進行搜索時,由於相應語言的文字資訊不多,可能導致不準確健康資訊的傳播,構成公共衞生風險。
大型語言模型有助縮少電子健康資訊在傳播上出現的數碼鴻溝,讓大眾更容易接觸公共衞生資源。
利用ChatGPT對話特性 開發疾病傳播數學模型
從SARS到新冠疫情,數學模型在提供有關緩解傳染病傳播風險策略的資訊方面愈來愈重要。然而,並非每一個公共衞生從業員均具備所需的編寫程式或高階數學知識,以有效地使用複雜的數學模型工具。大型語言模型則可發揮作用。
研究團隊在《計算與結構生物技術雜誌》中發表的研究文章中描述了具體案例。一位公共衞生從業員利用自然對話與ChatGPT溝通,提供文字指令予ChatGPT執行編寫程式、修改及除錯迭代程序,成功建立了一個經驗證的數學傳播模型。該模型可配對十天的疾病流行數據,並估算兩個關鍵的流行病學參數。該模型與1978年英國寄宿學校流感爆發的歷史數據進行驗證,展示其可靠性和現實應用性,產生的估算結果與現有文獻一致。這種快速及方便應用的數學模型開發方法有助擴大先進模型建立技術的應用範圍,提供更快速及更具包容性的公共衞生應對方案。
中大醫學院賽馬會公共衞生及基層醫療學院副教授郭健安教授表示:「ChatGPT有助降低複雜疾病傳播數學模型的應用門檻,包括資源有限的環境,從而提升我們在疫情準備和公共衞生的應對能力。ChatGPT通過自然對話建立數學模型的能力,為傳染病流行病學課程增添教育價值,讓學生能以互動方式模擬疾病擴散。」
語言流通性的差異擴大健康資訊的數碼鴻溝
在另一發表於《英國醫學雜誌》的研究,研究團隊探討低流通量語言在大型語言模型中出現顯著的數碼鴻溝和相關社區在接收健康資訊的影響。研究個案中一名使用越南語的人士諮詢心房顫動的症狀,卻收到有關柏金遜症的資訊。
郭健安教授表示:「大型語言模型本身存在局限性,更傾向流通性較高、數碼資源較豐富的語言。這是公共衞生資訊息傳播的一大挑戰,尤其是處理越南語等流通性較低、缺乏數碼資源的語言。錯誤的症狀檢測或疾病指引會對疫情管理帶來嚴重影響。因此加強大型語言模型的準確性是重中之重,確保此類型工具提供與文化、語言相關的健康資訊,特別是在容易爆發傳染病的地區。」
越南RMIT國際大學科學、工程與技術學院高級講師鄧國雄博士表示:「大型語言模型的準確性很大程度取決於其訓練數據集的數量和質素。由於英語擁有豐富的高質量數碼訓練資源,大型語言模型在英語中的表現通常較好。相對而言,像越南語和廣東話這樣的低流通性語言擁有的數碼資源有限且質素較低。因此,大型語言模型在這些語言中的表現通常較差。這種大型語言模型準確性的差異可能會令數碼鴻溝的問題加劇,尤其是因為低流通性語言主要在低收入和中等收入國家中使用。」
新加坡國立大學李陳愛禮護理學研究中心副教授兼研究主任談維新教授表示:「大型語言模型如ChatGPT和Gemini-Pro在傳播健康資訊方面提供了顯著的便利。然而,必須仔細監控它們的準確性和可靠性,尤其是在輸入提示和生成回應時使用低流通性語言。雖然提供公平的健康資訊平台是有益的,但確保這些資訊的準確性對防止錯誤資訊的傳播至關重要。」
為了加強人工智能(AI)語言的包容性、縮小差距並確保不同語言社群能更公平地獲取準確的健康資訊,研究人員提出了六大支柱,以解決目前由大型語言模型驅動的醫療保健對話中的缺陷,減少錯誤資訊的傳播,以達致提升全球醫療發展為目標。
研究團隊提出解決數碼鴻溝的六大支柱:
- 政策制定者:制定全球公平的AI治理監管框架。
- 研究資助機構:增加對提升語言包容性的項目的支持。
- 科技公司:改善AI翻譯能力,以適應多種語言。
- 研究社群:創建並共享開源語言數據和工具。
- 醫護人員:提供反饋,以確保AI解決方案的文化準確性。
- 語言代表性不足的社群:提供洞察和經驗,以促進包容性AI發展。
關於研究團隊
這兩項研究工作由一個團隊進行,該團隊由郭健安教授、鄧國雄博士以及談維新教授共同領導。團隊的其他成員還包括中大醫學院賽馬會公共衞生及基層醫療學院的黃仰山教授和衛藴妍女士、倫敦帝國學院的Steven Riley教授、RMIT越南分校的 Tom Huynh先生、Nhat Bui先生 及Giang Nguyen 先生、墨爾本大學的Neo Tung 先生,以及來自越南牛津大學臨床研究單位的 Huy Quang Nguyen先生。
參考文獻
1. Kin On Kwok*, Tom Huynh, Wan In Wei, Samuel Y.S. Wong, Steven Riley, Arthur Tang*. Utilizing large language models in infectious disease transmission modelling for public health preparedness. Comput Struct Biotechnol J. Volume 23, December 2024, Pages 3254-3257 (*Corresponding author)
2. Arthur Tang, Neo Tung, Huy Quang Nguyen, Kin On Kwok*, Stanley Luong, Nhat Bui
Giang Nguyen, Wilson Tam. Health information for all: do large language models bridge or widen the digital divide? BMJ. 2024 (* Corresponding author)