使用Amazon Polly文本进行语音模仿来模仿音频文件中真实语音的语调

时间:2018-11-24 02:03:47

标签: speech-recognition text-to-speech speech-to-text amazon-polly

我想使用Amazon Polly产生非常逼真的语音-比允许Amazon Polly从普通文本输入生成语音音频输出所产生的结果更真实。为了做到这一点,我想告诉Polly尽最大努力使配音演员录制/录制的 real 语音音频文件输入样本完全匹配。换句话说,我想将配音演员产生的语音转换成适合作为波莉api输入的某种代码(例如音素,定时代码等)的序列,然后可以产生音频文件输出,应该尽可能地模仿原始记录的输入。

某些AWS api是否将语音音频文件作为输入,并将其转换为一系列代码(例如音素和时序信息),然后可以将其输入到polly api中以生成相应的语音回传?如果没有,那么是否还有其他适合用于第一步的api?

为什么? 使用Polly以“正常方式”创建语音-通过将文本输入到polly api中-往往无法产生足够自然的发声语音(尽管它可能是当前可用的最佳语音引擎文本)。 Polly API语音产生的“正常方式”没有正确的时间/韵律。我们尝试将语音逐个单词手动转换为音素,并手动添加时间信息,然后将其作为输入输入到Polly API中,但这既费力又不能产生令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分,我们需要获得更好的质量。我们不能像其他情况那样使用来自配音演员的录制音频,因为那样的话,它将与Polly API产生的其余语音不匹配。

顺便说一句,在您对此帖子投反对票之前,因为它不包含一些代码片段...请认为这仍然是一个编码问题,只是不是以“帮助我编辑我的代码片段以执行x”的形式-尽管如果存在这样的答案,代码片段答案将是一个很好的答案形式!这实际上是一个广泛而重要的通用编码问题,可能会影响需要通过代码创建逼真的语音的任何编码器。

谢谢

1 个答案:

答案 0 :(得分:-1)

  

某些AWS api是否将语音音频文件作为输入,并将其转换为一系列代码(例如音素和定时信息),然后可以将其输入到polly api中以生成相应的语音回传?

您是否真的认为亚马逊创建了一些对用户隐藏的秘密API,但是一些勇敢的黑客会在此处向您披露未记录的API访问代码?

  

如果不是,是否还有其他一些适合用于第一步的api?

这存在于开源中,当然与AWS无关

https://github.com/KinglittleQ/GST-Tacotron