将计算机与人脑和阅读意识直接联系起来不是科幻小说。

顶尖学术期刊《自然》刚刚在网上发表的一篇文章在脑-机接口领域迈出了一大步。加州大学旧金山分校(UCSF)的神经外科医生张智威教授和他的同事开发了一种解码器,可以将人类脑神经信号转换成语音,从而完成了一个强有力的概念证明,可以帮助不能说话的病人相互交流。

脑-机接口(BCI)是指人或动物的大脑与外部设备之间建立的直接联系,以实现大脑与设备之间的信息交换。近年来,这项技术的快速发展正在改善那些神经损伤或严重运动障碍患者的生活质量。例如,帮助瘫痪的人“思考”控制机械臂来检索物体,或者控制屏幕上的光标来输入单词。然而,目前“思维打字”的速度只能达到每分钟10字左右,远远低于正常人的语速,远远不能满足患者的交流需求。

因此,一些科学家正试图解码大脑中的语音信号,通过人工语音合成,他们可以真正“说出”他们想要的东西!

本研究的主要负责人张智威教授是一位神经外科医生,擅长治疗成人癫痫、脑肿瘤等疾病。该研究主要关注语言、运动和情绪的大脑机制(图片来源:UCSF官方网站)

为了解决语音重建的问题,有必要对代表语音运动的神经活动进行解码。一些接受开颅手术的癫痫患者为神经科学家提供了有价值的数据。由于需要为一些病人定位癫痫发作的来源,神经外科医生将通过手术在病人的颅内植入电极来监测他们的大脑活动。在此基础上,研究人员使用一种叫做高密度皮层电图(ECoG)的技术来直接记录受试者大脑皮层的神经活动。

受试者首先按照要求大声朗读数百个句子。与此同时,研究人员记录了他们大脑的语言产生中心腹侧感觉运动皮层的神经活动。

利用循环神经网络(RNN),研究人员分两步解码收集的神经信号。第一步,他们将神经信号转换成代表发声器官动作的信号,包括与下巴、喉咙、嘴唇和舌头动作相关的大脑信号。然后,根据解码的语音器官运动,信号被转换成口语。

通过脑-机接口显示语音合成的图形(图片来源:参考[1))

这种创新的解码方法有助于解决重建语音时的声音失真问题,并使合成语音更容易被听到和理解。以下测试结果验证了这一点。研究人员在亚马逊的众包平台“机械土耳其人”上招募听众来识别解码器的合成语音,该语音由325个单词和101个句子组成。在测试中,听者能够成功地识别单词,这与自然语音的感知模式是一致的。对于合成演讲中的整句话,观众也能认出句子的意思。

第一作者戈帕拉·纳曼奇帕利博士认为,这一结果意味着这种神经合成语音已经达到了对现实世界应用的即时理解的实用水平。

更重要的是,研究人员还测试了解码器在不产生任何噪音的情况下合成语音的能力。受试者先按照要求说出一个句子,然后默念同一个句子,也就是说,只产生发音的动作而不产生声音——这种情况更符合一些患者的实际情况。结果表明,解码器合成的无声语音频谱与同一个句子的频谱相似。

尽管正如生物工程教授契坦·潘达瑞纳特(Chethan Pandarinath)和其他人同时在《自然》杂志上发表的评论中所言,该系统要成为临床上可行的语音脑-机接口仍面临许多挑战,但毫无疑问,脑-机接口技术的不断进步将使患有发声障碍的人重新获得自由说话的能力,并与周围的世界重新建立联系。甚至,脑-机接口的发展将使更多的人有可能突破人类的局限,扩展意识的界限。