据外媒报道,目前谷歌旗下人工智能部门DeepMind已经研发了一项新的技术WaveNet,借助于深度神经网络让人工智能模仿人类的声音说话,它能直 接合成原始音波模型,而非采用预录制的人类声音,听起来十分自然。设想在未来,人工智能同人类进行自然且互相理解的发声和对话将真正成为现实。
尽管近几年,语音识别和个人数字助理技术飞速发展,不过Siri、Cortana等数字助手的语音仍需要借助预录制的人声,且有时能够明显听出冰冷和机械化的发音。
DeepMind的新AI自然语音技术有所不同,DeepMind的天才工程师们通过深度神经网络构建了一个算法模型,让AI自己合成出声音进行语音对话,同时能够理解英语和中文的不同表达时序,并且实时做出语音回馈。令人惊喜的是这项新技术的表现超出了现代最尖端的人工文本-语音系统。目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。这就需要使用到超大型的记录说话者的语音片段的数据库,然后将这些语音片段重新组合成完整的话语。
上方动画所示为一个WaveNet模型的内部结构,通常是一种完整的卷积神经网络,卷积层中有各种各样的扩张因子,允许其接受域深度成倍增长,并且覆盖数千个时间步长。
在训练时,输入序列是从人类说话者记录得来的真实波形。在训练之后,DeepMind可以对网络取样,以生成合成话语。在取样的每一个步骤中,将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中,这样便完成下一步新预测。这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。
为了实现运用WaveNet将文本转化为语音,必须先告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征,把转换得来的特征提供给WaveNet,完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本,而且要基于文本所传达的内容。
如果我们想要脱离文本序列来训练网络,网络依然能够生成语音,但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语,有意义的单词被编造的像单词的声音隔断开。
WaveNet通过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。同生成听起来更为自然的语音相同,使用原始波形意味着WaveNet能够为任意类型的音频建模,包括音乐。