谷歌DeepMind黑科技:人工智能说话更像人 - 澳大利亚乐途移民资讯

2016-09-12

0 25

据外媒报道，目前谷歌旗下人工智能部门DeepMind已经研发了一项新的技术WaveNet，借助于深度神经网络让人工智能模仿人类的声音说话，它能直接合成原始音波模型，而非采用预录制的人类声音，听起来十分自然。设想在未来，人工智能同人类进行自然且互相理解的发声和对话将真正成为现实。

尽管近几年，语音识别和个人数字助理技术飞速发展，不过Siri、Cortana等数字助手的语音仍需要借助预录制的人声，且有时能够明显听出冰冷和机械化的发音。

DeepMind的新AI自然语音技术有所不同，DeepMind的天才工程师们通过深度神经网络构建了一个算法模型，让AI自己合成出声音进行语音对话，同时能够理解英语和中文的不同表达时序，并且实时做出语音回馈。令人惊喜的是这项新技术的表现超出了现代最尖端的人工文本-语音系统。目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。这就需要使用到超大型的记录说话者的语音片段的数据库，然后将这些语音片段重新组合成完整的话语。

上方动画所示为一个WaveNet模型的内部结构，通常是一种完整的卷积神经网络，卷积层中有各种各样的扩张因子，允许其接受域深度成倍增长，并且覆盖数千个时间步长。

在训练时，输入序列是从人类说话者记录得来的真实波形。在训练之后，DeepMind可以对网络取样，以生成合成话语。在取样的每一个步骤中，将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中，这样便完成下一步新预测。这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

为了实现运用WaveNet将文本转化为语音，必须先告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征，把转换得来的特征提供给WaveNet，完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本，而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络，网络依然能够生成语音，但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语，有意义的单词被编造的像单词的声音隔断开。

WaveNet通过直接为音频信号的原始波形建模，一次为一种音频样本建模，来改变这种范式。同生成听起来更为自然的语音相同，使用原始波形意味着WaveNet能够为任意类型的音频建模，包括音乐。

关于乐途国际

乐途国际

乐途国际的总部在美丽的澳大利亚第二大城市维多利亚州的墨尔本，自公司成立以来，乐途一直致力于中国与澳大利亚之间的文化经济交流活动，并且帮助许多客户完美的达成了在澳洲居住和投资的目标，走上了人生的巅峰。

关于乐途国际

B

评论

内容搜索

最新新闻

时间飞逝

乐途官微