网上问医断病,这轮AI行不行?
来源: 科(kē)技日报 作者: 发布时间: 2023-07-18

你在网上搜过“我哪哪疼是不是得了啥啥病”吗?答(dá)案可(kě)能(néng)不尽如人意。但随着ChatGPT等大型自然语言模型(LLM)风生水起,人们开始尝试用(yòng)它来回答(dá)医學(xué)问题或医學(xué)知识。

不过,靠谱吗?

就其本身而言,人工智能(néng)(AI)给出的答(dá)案是准确的。但英國(guó)巴斯大學(xué)教授詹姆斯·达文(wén)波特指出了医學(xué)问题和实际行医之间的區(qū)别,他(tā)认為(wèi)“行医并不只是回答(dá)医學(xué)问题,如果纯粹是回答(dá)医學(xué)问题,我们就不需要教學(xué)医院,医生也不需要在學(xué)术课程之后接受多(duō)年的培训了。”

鉴于种种疑惑,在《自然》杂志(zhì)新(xīn)近发表的一篇论文(wén)中,全球顶尖的人工智能(néng)专家们展示了一个基准,用(yòng)于评估大型自然语言模型能(néng)多(duō)好地解决人们的医學(xué)问题。

现有(yǒu)的模型尚不完善

最新(xīn)的这项评估,来自谷歌研究院和深度思维公司。专家们认為(wèi),人工智能(néng)模型在医學(xué)领域有(yǒu)许多(duō)潜力,包括知识检索和支持临床决策。但现有(yǒu)的模型尚不完善,例如可(kě)能(néng)会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。

相关的评估此前并非没有(yǒu)。然而,过去通常依赖有(yǒu)限基准的自动化评估,例如个别医疗测试得分(fēn)。这转化到真实世界中,可(kě)靠性和价值都有(yǒu)欠缺。

而且,当人们转向互联网获取医疗信息时,他(tā)们会遭遇“信息超载”,然后从10种可(kě)能(néng)的诊断中选择出最坏的一种,从而承受很(hěn)多(duō)不必要的压力。

研究团队希望语言模型能(néng)提供简短的专家意见,不带偏见、表明其引用(yòng)来源,并合理(lǐ)表达出不确定性。

5400亿参数的LLM表现如何

為(wèi)评估LLM编码临床知识的能(néng)力,谷歌研究院的专家謝(xiè)库菲·阿齐兹及其同事探讨了它们回答(dá)医學(xué)问题的能(néng)力。团队提出了一个基准,称為(wèi)“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有(yǒu)问题回答(dá)数据集以及“HealthSearchQA”——这是一个新(xīn)的数据集,包含3173个在線(xiàn)搜索的医學(xué)问题。

团队随后评估了PaLM(一个5400亿参数的LLM)及其变體(tǐ)Flan-PaLM。他(tā)们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美國(guó)医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。

不过,虽然Flan-PaLM的多(duō)选题成绩优良,进一步评估显示,它在回答(dá)消费者的医疗问题方面存在差距。

专精医學(xué)的LLM令人鼓舞

為(wèi)解决这一问题,人工智能(néng)专家们使用(yòng)一种称為(wèi)设计指令微调的方式,进一步调试Flan-PaLM适应医學(xué)领域。同时,研究人员介绍了一个专精医學(xué)领域的LLM——Med-PaLM。

设计指令微调是让通用(yòng)LLM适用(yòng)新(xīn)的专业领域的一种有(yǒu)效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分(fēn)与科(kē)學(xué)共识一致程度仅61.9%的長(cháng)回答(dá),Med-PaLM的回答(dá)评分(fēn)為(wèi)92.6%,相当于医师作出的回答(dá)(92.9%)。同样,Flan-PaLM有(yǒu)29.7%的回答(dá)被评為(wèi)可(kě)能(néng)导致有(yǒu)害结果,Med-PaLM仅5.8%,相当于医师所作的回答(dá)(6.5%)。

研究团队提到,结果虽然很(hěn)有(yǒu)前景,但有(yǒu)必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。

换句话说,在LLM的临床应用(yòng)可(kě)行之前,还有(yǒu)许多(duō)限制要克服。

地方动态

中國(guó)信息协会会長(cháng)王金平参加第七届数字中國(guó)建设峰会

全國(guó)大學(xué)生创新(xīn)发明大赛暨“英创工程”启动

赋能(néng)未来,共创数智化新(xīn)纪元:中國(guó)信息协会集团企业数字化工作委员会正式成立

中國(guó)信息协会第四届信息技术服務(wù)业应用(yòng)技能(néng)大赛新(xīn)闻发布会在京召开

  • 协会要闻
  • 通知公告