应用错误收集

时间：2016-09-21 18:04:22

标签： vxml

问候StackOverflow社区，

是否可以采取用户所说或输入的内容（如字母1 - 9）而不是文本到语音引擎将数字读回用户，它播放预先录制的音频剪辑，因此听起来像我们的画外音人而不是机器人？

您可以根据用户输入的内容动态执行此操作吗？

所有我真正要求的是如何开始解决这个问题的正确方向。

答案 0 :(得分：1)

你可以。很久以前，我写过逻辑，它使用所需的短语和可用剪辑列表来查找可用于组合音频的最大段（剪辑通常有多个短语）。它往往听起来很不稳定，但如果你有足够的预先录制的音频，它是可能的。在我的情况下，内容是一个利基，可以完成95％的覆盖率，只有几千个录音。

最后，找到剪辑只是基本的搜索逻辑。如果您在单词级别执行此操作，则只需使用单词命名每个剪辑并分割输入并生成音频标记。 if ...