应用错误收集

我想使用Amazon Polly产生非常逼真的语音-比允许Amazon Polly从普通文本输入生成语音音频输出所产生的结果更真实。为了做到这一点，我想告诉Polly尽最大努力使配音演员录制/录制的 real 语音音频文件输入样本完全匹配。换句话说，我想将配音演员产生的语音转换成适合作为波莉api输入的某种代码（例如音素，定时代码等）的序列，然后可以产生音频文件输出，应该尽可能地模仿原始记录的输入。

某些AWS api是否将语音音频文件作为输入，并将其转换为一系列代码（例如音素和时序信息），然后可以将其输入到polly api中以生成相应的语音回传？如果没有，那么是否还有其他适合用于第一步的api？

为什么？使用Polly以“正常方式”创建语音-通过将文本输入到polly api中-往往无法产生足够自然的发声语音（尽管它可能是当前可用的最佳语音引擎文本）。 Polly API语音产生的“正常方式”没有正确的时间/韵律。我们尝试将语音逐个单词手动转换为音素，并手动添加时间信息，然后将其作为输入输入到Polly API中，但这既费力又不能产生令人满意的结果。我们已经在应用程序中使用了它。对于演讲中特别重要的部分，我们需要获得更好的质量。我们不能像其他情况那样使用来自配音演员的录制音频，因为那样的话，它将与Polly API产生的其余语音不匹配。

顺便说一句，在您对此帖子投反对票之前，因为它不包含一些代码片段...请认为这仍然是一个编码问题，只是不是以“帮助我编辑我的代码片段以执行x”的形式-尽管如果存在这样的答案，代码片段答案将是一个很好的答案形式！这实际上是一个广泛而重要的通用编码问题，可能会影响需要通过代码创建逼真的语音的任何编码器。

谢谢

使用Amazon Polly文本进行语音模仿来模仿音频文件中真实语音的语调

1 个答案: