新的“读心”系统使语音合成技术更接近真实的人声

CNET认为，一项新技术可以在很大程度上将大脑活动转化为合成语音，从而真正恢复那些失去说话能力的人的天赋。加州大学旧金山分校(UCSF)的神经科学家创造了一个大脑-计算机界面，通过一个新颖的两步过程来解释来自大脑语言区域的信号。

研究人员并没有试图将大脑活动直接转换成声音，而是将神经信号转换成人类声道，以数字方式产生这些声音。

结果是人造声音更接近真实的人类声音，并开始接近正常的对话速度。

“我们展示了使用计算机模拟来清晰地模拟参与者的声带运动——包括嘴唇、舌头、下巴、喉咙...这可能产生大脑活动的最佳语音解码，”加州大学旧金山分校神经外科教授张智威周二告诉记者。

去年，麻省理工学院采用了切线相关法，使用耳机接收从大脑到嘴巴和下巴的信号。

新系统正在常的实验室中开发，团队的进展在周三发表在《自然》杂志上的一篇新论文中进行了概述。

研究人员对少数志愿者进行了研究，他们在大脑中植入了临时电极，为癫痫的神经外科治疗做准备。当他们的大脑活动被记录下来时，他们被要求大声朗读数百个句子。这些数据和参与者声音的记录使科学家能够创建一个虚拟的声音轨迹。用于产生语音的解剖结构的详细计算机模拟可以通过大脑活动来控制。以下视频显示了一些示例结果。

“这项研究首次表明，我们可以根据个人大脑活动生成完整的口语句子，”常在一份声明中说。“这是一个令人兴奋的原则证明，我们应该能够为语言障碍患者构建一个临床上可行的设备，而技术已经触手可及。”

目前，许多用于严重语言障碍患者的设备需要逐字思考，每分钟产生10个单词。然而，一个可以翻译整句话的系统可以让人们更快地交流，即使速度接近每分钟100-150个自然声音。

“作者的两阶段方法导致了声学失真的显著降低，”未参与研究的生物医学工程师谢丹·潘达瑞纳特(Chethan Pandarinath)和亚希亚·阿里(Yahia H. Ali)说。“然而，仍然有许多挑战...重构语音的可懂度仍然远低于自然语音的可懂度

这项新研究的合著者乔希·沙特尔(Josh Chartier)坚持认为，他们的系统所产生的准确性水平将改善现有技术，但他承认有一种方法可以完美地模仿口语。

“我们非常擅长合成较慢的声音，如‘sh’和‘z’，并保持声音的节奏和语调以及说话者的性别和身份，但有些较硬的声音，如‘b’和‘p’，会有些模糊。”

另一个有希望的发现是，用于声音运动的神经代码不一定对每个人都是唯一的。“不能动胳膊和腿的人已经学会用大脑来控制机器人的四肢，”沙特尔说。“我们希望有一天，有语言障碍的人能够使用这种大脑控制的人造声道再次学会说话。”