中大与东南亚及英国学府共同研究 为大型语言模型在公共衞生研究中的角色带来崭新见解
香港中文大学(中大)医学院与越南RMIT国际大学、新加坡国立大学及伦敦帝国学院合作进行两项研究,探讨ChatGPT等大型语言模型在公共衞生研究方面的潜力。研究团队在首项研究中揭示ChatGPT能辅助公共衞生从业员开发数学模型,以制订感染控制政策,标志著传染病流行病学的一大进步。然而,研究人员在第二项研究中发现,利用流通性不高的语言如越南语在大型语言模型进行搜索时,由於相应语言的文字资讯不多,可能导致不准确健康资讯的传播,构成公共衞生风险。
大型语言模型有助缩少电子健康资讯在传播上出现的数码鸿沟,让大众更容易接触公共衞生资源。
利用ChatGPT对话特性 开发疾病传播数学模型
从SARS到新冠疫情,数学模型在提供有关缓解传染病传播风险策略的资讯方面愈来愈重要。然而,并非每一个公共衞生从业员均具备所需的编写程式或高阶数学知识,以有效地使用复杂的数学模型工具。大型语言模型则可发挥作用。
研究团队在《计算与结构生物技术杂志》中发表的研究文章中描述了具体案例。一位公共衞生从业员利用自然对话与ChatGPT沟通,提供文字指令予ChatGPT执行编写程式、修改及除错迭代程序,成功建立了一个经验证的数学传播模型。该模型可配对十天的疾病流行数据,并估算两个关键的流行病学参数。该模型与1978年英国寄宿学校流感爆发的历史数据进行验证,展示其可靠性和现实应用性,产生的估算结果与现有文献一致。这种快速及方便应用的数学模型开发方法有助扩大先进模型建立技术的应用范围,提供更快速及更具包容性的公共衞生应对方案。
中大医学院赛马会公共衞生及基层医疗学院副教授郭健安教授表示:「ChatGPT有助降低复杂疾病传播数学模型的应用门槛,包括资源有限的环境,从而提升我们在疫情准备和公共衞生的应对能力。ChatGPT通过自然对话建立数学模型的能力,为传染病流行病学课程增添教育价值,让学生能以互动方式模拟疾病扩散。」
语言流通性的差异扩大健康资讯的数码鸿沟
在另一发表於《英国医学杂志》的研究,研究团队探讨低流通量语言在大型语言模型中出现显著的数码鸿沟和相关社区在接收健康资讯的影响。研究个案中一名使用越南语的人士谘询心房颤动的症状,却收到有关柏金逊症的资讯。
郭健安教授表示:「大型语言模型本身存在局限性,更倾向流通性较高、数码资源较丰富的语言。这是公共衞生资讯息传播的一大挑战,尤其是处理越南语等流通性较低、缺乏数码资源的语言。错误的症状检测或疾病指引会对疫情管理带来严重影响。因此加强大型语言模型的准确性是重中之重,确保此类型工具提供与文化、语言相关的健康资讯,特别是在容易爆发传染病的地区。」
越南RMIT国际大学科学、工程与技术学院高级讲师邓国雄博士表示:「大型语言模型的准确性很大程度取决於其训练数据集的数量和质素。由於英语拥有丰富的高质量数码训练资源,大型语言模型在英语中的表现通常较好。相对而言,像越南语和广东话这样的低流通性语言拥有的数码资源有限且质素较低。因此,大型语言模型在这些语言中的表现通常较差。这种大型语言模型准确性的差异可能会令数码鸿沟的问题加剧,尤其是因为低流通性语言主要在低收入和中等收入国家中使用。」
新加坡国立大学李陈爱礼护理学研究中心副教授兼研究主任谈维新教授表示:「大型语言模型如ChatGPT和Gemini-Pro在传播健康资讯方面提供了显著的便利。然而,必须仔细监控它们的准确性和可靠性,尤其是在输入提示和生成回应时使用低流通性语言。虽然提供公平的健康资讯平台是有益的,但确保这些资讯的准确性对防止错误资讯的传播至关重要。」
为了加强人工智能(AI)语言的包容性、缩小差距并确保不同语言社群能更公平地获取准确的健康资讯,研究人员提出了六大支柱,以解决目前由大型语言模型驱动的医疗保健对话中的缺陷,减少错误资讯的传播,以达致提升全球医疗发展为目标。
研究团队提出解决数码鸿沟的六大支柱:
- 政策制定者:制定全球公平的AI治理监管框架。
- 研究资助机构:增加对提升语言包容性的项目的支持。
- 科技公司:改善AI翻译能力,以适应多种语言。
- 研究社群:创建并共享开源语言数据和工具。
- 医护人员:提供反馈,以确保AI解决方案的文化准确性。
- 语言代表性不足的社群:提供洞察和经验,以促进包容性AI发展。
关於研究团队
这两项研究工作由一个团队进行,该团队由郭健安教授、邓国雄博士以及谈维新教授共同领导。团队的其他成员还包括中大医学院赛马会公共衞生及基层医疗学院的黄仰山教授和卫藴妍女士、伦敦帝国学院的Steven Riley教授、RMIT越南分校的 Tom Huynh先生、Nhat Bui先生 及Giang Nguyen 先生、墨尔本大学的Neo Tung 先生,以及来自越南牛津大学临床研究单位的 Huy Quang Nguyen先生。
参考文献
1. Kin On Kwok*, Tom Huynh, Wan In Wei, Samuel Y.S. Wong, Steven Riley, Arthur Tang*. Utilizing large language models in infectious disease transmission modelling for public health preparedness. Comput Struct Biotechnol J. Volume 23, December 2024, Pages 3254-3257 (*Corresponding author)
2. Arthur Tang, Neo Tung, Huy Quang Nguyen, Kin On Kwok*, Stanley Luong, Nhat Bui
Giang Nguyen, Wilson Tam. Health information for all: do large language models bridge or widen the digital divide? BMJ. 2024 (* Corresponding author)