一枚硬币大小(xiǎo)的石墨烯片,贴在颈部靠近喉咙处,就能(néng)帮助发音障碍者获得新(xīn)“声”。近日,清华大學(xué)集成電(diàn)路學(xué)院任天令教授及合作团队在智能(néng)语音交互方面取得重要进展,其研发的可(kě)穿戴人工喉可(kě)以感知喉部发声相关信号,并通过人工智能(néng)模型将其识别和合成為(wèi)语音,还原准确率超过90%。
这一研究结果為(wèi)语音识别与交互系统提供了一条新(xīn)的技术途径,并于近日在線(xiàn)发表在《自然》人工智能(néng)子刊《自然·机器智能(néng)》上。
语音是人类交流的重要方式,但说话人的健康状态(例如神经疾病、癌症、外伤等原因导致的声音障碍)和周围环境(噪音干扰、传播介质)往往会影响声音的传输和识别。一直以来,研究人员在致力改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多(duō)通道声學(xué)传感器可(kě)以显著提高声音识别的精度,但会导致更大的设备體(tǐ)积,而可(kě)穿戴设备能(néng)够获取高质量的原始语音或其他(tā)生理(lǐ)信号。然而,目前尚无充分(fēn)的证据表明喉部肌肉的运动模式和反映在體(tǐ)表的发声器官振动中隐含着可(kě)识别的语音特征,且尚无实验证明其作為(wèi)语音识别技术的完备性。
為(wèi)解决这一问题,任天令团队成员开发了一款基于石墨烯的智能(néng)可(kě)穿戴人工喉,同商(shāng)业麦克风和压電(diàn)薄膜相比,人工喉对低频的肌肉运动、中频食管振动和高频声波信息有(yǒu)很(hěn)高的灵敏度,同时也具有(yǒu)抗噪声的语音感知能(néng)力。对声學(xué)信号和机械运动的混合模态的感知使人工喉能(néng)够获得更低的语音基频信号。此外,该器件还可(kě)以通过热声效应实现声音的播放功能(néng)。人工喉的制作过程简单、性能(néng)稳定、易于集成,為(wèi)语音识别和交互提供了一种新(xīn)的硬件平台。
团队还利用(yòng)人工智能(néng)模型对人工喉感知的信号进行语音识别和合成,实现了对基本语音元素(音素、声调和词语)的高精度识别,以及对喉癌患者模糊语音的识别与再现,為(wèi)声音障碍者的沟通和交互提供了一种创新(xīn)的解决方案。
实验结果表明,人工喉采集的混合模态语音信号可(kě)以识别基本语音元素(音素、音调和单词),平均准确率為(wèi)99.05%。同时人工喉的抗噪声性能(néng)明显优于麦克风,在60分(fēn)贝以上环境噪声下仍能(néng)保持识别能(néng)力。任天令研究团队进一步演示了它的语音交互式应用(yòng):通过集成AI模型,人工喉能(néng)够识别一名喉切除术患者模糊说出的日常词语,准确率超过90%。识别出的内容被合成為(wèi)语音在人工喉上播放,可(kě)以初步恢复患者的语音交流能(néng)力。
任天令介绍,该人工喉还有(yǒu)很(hěn)大的优化和拓展空间,例如提高声音的质量和音量,增加语音的多(duō)样性和表情,以及结合其他(tā)生理(lǐ)信号和环境信息实现更自然和智能(néng)的语音交互。研究团队希望通过进一步的研究和合作,让人工喉造福更多(duō)的声音障碍者和语音交互的用(yòng)户。