解析生物(wù)医學(xué)大数据,人工智能(néng)是最适用(yòng)手段
来源: 科(kē)技日报 作者: 发布时间: 2023-06-16

当前最核心的生物(wù)医學(xué)大数据问题是解决各种可(kě)测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分(fēn)子水平的基因组學(xué)、蛋白质组學(xué)研究产生的数据量不计其数,近年来发展起来的表型组學(xué)研究也在不断积累数据量,我们会逐渐拥有(yǒu)大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分(fēn)析只能(néng)由人工智能(néng)来完成。

近段时间,人工智能(néng)大模型展现了强大的自然语义处理(lǐ)能(néng)力,再次掀起了人工智能(néng)的研究热潮。从图灵测试开始,机器人能(néng)否与人对话就被用(yòng)作判断机器是否具有(yǒu)高级别认知智能(néng)的依据。大模型的建立,让人工智能(néng)距离通过图灵测试更近一步。

那么,当前的人工智能(néng)还有(yǒu)哪些潜力?在生物(wù)医學(xué)领域应如何更进一步发展适用(yòng)的人工智能(néng)?记者日前对中國(guó)科(kē)學(xué)院院士、中國(guó)科(kē)學(xué)院生物(wù)物(wù)理(lǐ)研究所研究员陈润生进行了采访。

生物(wù)信息数据量大、维度广

记者:距离人类遗传密码被破译已经过了20多(duō)年,但似乎仍有(yǒu)很(hěn)多(duō)健康问题难以解决,这是為(wèi)什么?

陈润生:过去我们认為(wèi)生物(wù)网络是“单色”的,或者说是单因素作用(yòng)的。因為(wèi)当时我们认為(wèi)具有(yǒu)生命功能(néng)的分(fēn)子只有(yǒu)蛋白质,遗传物(wù)质经过转录、翻译的过程转化為(wèi)蛋白质,进而执行生命活动中的各项功能(néng)。

基于这样的认知,人类遗传密码的破译被理(lǐ)解為(wèi)解读“生命天书”。将人类全部30亿个碱基序列全部测序完成,就能(néng)读懂这部“生命天书”,提纲挈领地搞清生命活动的运转體(tǐ)系,从而揭开所有(yǒu)健康的秘密,获得解决健康问题的手段。

但现在我们发现,生物(wù)网络不是“单色”的,生命活动的调控、抑制、互作中,还有(yǒu)核酸的参与。比如有(yǒu)些核酸序列也会发挥之前被认為(wèi)属于蛋白质的功能(néng),调控细胞活动。在承载人类遗传信息的30亿个碱基对中,还有(yǒu)很(hěn)大一部分(fēn)虽然我们读出了序列,但并不知道功能(néng),它们在生命活动中究竟起到什么作用(yòng)也没有(yǒu)被研究清楚。大量这样的區(qū)域被称為(wèi)遗传物(wù)质的“沙漠區(qū)”……因此,当前对人类遗传密码的破译进程只走了解决健康问题过程中的一小(xiǎo)步。

记者:既然生命活动这么复杂,是否需要更多(duō)的生物(wù)信息数据才有(yǒu)希望破解健康难题?目前需要充分(fēn)利用(yòng)的有(yǒu)哪些维度的生物(wù)信息學(xué)数据?

陈润生:这30年来,人类遗传密码的破译带动着整个生物(wù)医學(xué)领域内广泛的数据都成為(wèi)了大数据。

生物(wù)信息學(xué)最早的研究对象是遗传密码,研究任務(wù)是对遗传密码进行收集、整理(lǐ)、存储、发布、分(fēn)析和解释。现在数据更广泛了,生物(wù)信息學(xué)的研究从20世纪八九十年代创立时的无信息可(kě)用(yòng),到现在数据呈现海量、多(duō)维、异质化特征。比如通过電(diàn)子病历大数据挖掘,我们可(kě)以得到很(hěn)多(duō)重要信息。中山(shān)大學(xué)一些研究人员通过電(diàn)子病历分(fēn)析找到的科(kē)學(xué)结论被发表在了國(guó)际著名期刊上。又(yòu)比如可(kě)穿戴设备带来的生理(lǐ)生化指标,这类信息具备实时、环境情绪相关等特性。这些数据还包括医院中的影像學(xué)数据、临床病人在治疗用(yòng)药后的病情变化数据、环境数据、微生物(wù)数据、地质数据、化學(xué)农药残留数据等。所有(yǒu)这些跟健康相关的数据集纳起来,构成了非常复杂的健康大数据类型。

可(kě)大幅提高生物(wù)信息处理(lǐ)能(néng)力

记者:如何解析复杂的健康大数据?

陈润生:健康大数据很(hěn)复杂,举例来说,電(diàn)子病历写的是字,处理(lǐ)这样的信息需要自然语言处理(lǐ)模块,生理(lǐ)生化指标如脑電(diàn)、心電(diàn)等信息需要处理(lǐ)的是波形图,而影像學(xué)要处理(lǐ)图像,组學(xué)要处理(lǐ)符号。对这些性质各异的生物(wù)信息进行全面提取处理(lǐ),就如同秦始皇统一六國(guó)不仅要统一文(wén)字、语言,还要统一货币、度量衡,需要将不同的信息融通,再做解析和决策。

当前最核心的生物(wù)医學(xué)大数据问题是解决各种可(kě)测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分(fēn)子水平的基因组學(xué)、蛋白质组學(xué)研究产生的数据量不计其数,近年来发展起来的表型组學(xué)研究也在不断积累数据量,我们会逐渐拥有(yǒu)大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分(fēn)析只能(néng)由人工智能(néng)来完成。

目前来看,要解析生物(wù)医學(xué)大数据,人工智能(néng)技术是最适用(yòng)的手段。

记者:从最初的人工智能(néng)到阿尔法狗再到大模型,人工智能(néng)发生了哪些变化?当前的大模型在处理(lǐ)生物(wù)医學(xué)信息方面有(yǒu)哪些优势?

陈润生:20世纪80年代,由于受算力和算法的限制,我们能(néng)设计运行的人工智能(néng)神经网络非常简单,只有(yǒu)几层。

现在的人工智能(néng)神经网络,比如阿尔法狗、阿尔法折叠等,它的网络模型架构达到200—300层。当今的计算能(néng)力能(néng)够使它们完成更加复杂的任務(wù)。

人工智能(néng)大模型让人工智能(néng)更进一步。我认為(wèi)大模型的出现表明人工智能(néng)有(yǒu)了多(duō)方面、更深刻的进展。第一方面是对自然语言的处理(lǐ)能(néng)力发生了根本性的变化。处理(lǐ)人类的自然语言对于计算机来说很(hěn)困难,突破这个能(néng)力后,人工智能(néng)可(kě)以拥有(yǒu)全局性的知识作為(wèi)计算的基础。

第二方面进展是具备了预學(xué)习能(néng)力。人类之所以能(néng)产生智慧,是因為(wèi)从出生以来一直在不断积累學(xué)习。现在在大模型中,计算机已经可(kě)以预學(xué)习了,能(néng)够在大量的知识被预先获得的前提下,再将具體(tǐ)科(kē)學(xué)问题交给计算机,而不是针对某一个特定问题进行學(xué)习。

第三方面进展是可(kě)积极促进模态融合。模态融合可(kě)以这样理(lǐ)解,比如人工智能(néng)不仅能(néng)完成基础医學(xué)里的结构预测工作,还能(néng)完成临床医學(xué)中的识图判读工作,更重要的是可(kě)以把这两个能(néng)力融合起来,即人工智能(néng)在每个领域都具备专家的知识,又(yòu)能(néng)够融会贯通、举一反三。

基于以上三点,我认為(wèi)发展人工智能(néng)作為(wèi)未来医學(xué)大数据挖掘的工具值得重视。

以人工智能(néng)解析生物(wù)医學(xué)大数据

记者:很(hěn)多(duō)人在健康出现问题之后的第一反应是“為(wèi)什么会这样”,以后人工智能(néng)可(kě)以解答(dá)这样的问题吗?

陈润生:想要回答(dá)“為(wèi)什么会这样”这个问题涉及到人工智能(néng)界的两个提法:弱人工智能(néng)和强人工智能(néng)。弱人工智能(néng)就像阿尔法狗,能(néng)处理(lǐ)特定任務(wù)。而强人工智能(néng)被认為(wèi)是有(yǒu)可(kě)能(néng)制造出来的、真正能(néng)推理(lǐ)和解决问题的智能(néng)机器。

所以你的问题其实是在问,强人工智能(néng)有(yǒu)可(kě)能(néng)出现吗?过去我认為(wèi)是不可(kě)能(néng)的,但现在看来,我觉得随着大模型的出现,一些问题正在破冰,强人工智能(néng)有(yǒu)了出现的苗头和希望。当然,现阶段人工智能(néng)的发展与真正的强人工智能(néng)还差得很(hěn)遠(yuǎn)。

当前我们正在进行一些与医學(xué)相关的人工智能(néng)研究。比如扩大健康问题相关的参数,抽提面部、表情等特征,也融合基因组、转录组、蛋白组、宏基因组、表观组等全部维度的特征,甚至加入了中医内容,通过多(duō)模态融合建造医學(xué)多(duō)模态数据智能(néng)整合计算平台,我们称之為(wèi)“灵枢”,并将其用(yòng)于医學(xué)健康问题的实践。

记者:网上有(yǒu)人调侃,能(néng)写论文(wén)的人工智能(néng)却无法解释清楚“驴肉火烧”“鱼香肉丝”,而生物(wù)医學(xué)领域对于人工智能(néng)的要求更高,您认為(wèi)如何让人工智能(néng)具有(yǒu)更严谨的运行能(néng)力?

陈润生:如何才能(néng)让人工智能(néng)解释清楚“驴肉火烧”“鱼香肉丝”等人类世界的问题,其实是在问如何才能(néng)让人工智能(néng)达到强人工智能(néng)的水平。

人工智能(néng)的智能(néng)水平主要由三个因素决定:数据、模型和算力。数据掌握在用(yòng)户手中,模型需要不断研发讨论精进,算力是由计算机的能(néng)力决定的。

从这三个决定因素入手,我们能(néng)够发现,在数据方面,要解决相应的科(kē)學(xué)问题,人工智能(néng)掌握信息量高、信噪比低的足够信息就可(kě)以了。在算力方面,要依靠计算机科(kē)學(xué)家不断从硬件等解决方案入手提高运算能(néng)力。

只有(yǒu)模型方面是值得研讨的,现在的模型理(lǐ)论够不够达到强人工智能(néng)的要求,如何让模型更强?

目前有(yǒu)几个途径可(kě)以让模型更强,即增加知识量、增加网络节点数、增加网络复杂度。当前國(guó)际上几个大模型的处理(lǐ)数据量已达到万亿参数级别,在此基础上,我认為(wèi)需要进一步增加的是网络复杂度。

我们可(kě)以从生理(lǐ)學(xué)家的脑生理(lǐ)切片模型中得到启发。新(xīn)生儿的脑神经网络很(hěn)简单,复杂度不够,學(xué)不了多(duō)少东西。成長(cháng)让人的脑神经网络逐步复杂,进而承载更多(duō)内容。因此,我们可(kě)以从研究脑发育中获得启发,进而形成一个更完善的基础理(lǐ)论框架,获得适用(yòng)的模型,使人工智能(néng)走向强人工智能(néng)。(记者 张佳星


地方动态

中國(guó)信息协会会長(cháng)王金平参加第七届数字中國(guó)建设峰会

全國(guó)大學(xué)生创新(xīn)发明大赛暨“英创工程”启动

赋能(néng)未来,共创数智化新(xīn)纪元:中國(guó)信息协会集团企业数字化工作委员会正式成立

中國(guó)信息协会第四届信息技术服務(wù)业应用(yòng)技能(néng)大赛新(xīn)闻发布会在京召开

  • 协会要闻
  • 通知公告