问候StackOverflow社区,
是否可以采取用户所说或输入的内容(如字母1 - 9)而不是文本到语音引擎将数字读回用户,它播放预先录制的音频剪辑,因此听起来像我们的画外音人而不是机器人?
您可以根据用户输入的内容动态执行此操作吗?
所有我真正要求的是如何开始解决这个问题的正确方向。
答案 0 :(得分:1)
你可以。很久以前,我写过逻辑,它使用所需的短语和可用剪辑列表来查找可用于组合音频的最大段(剪辑通常有多个短语)。它往往听起来很不稳定,但如果你有足够的预先录制的音频,它是可能的。在我的情况下,内容是一个利基,可以完成95%的覆盖率,只有几千个录音。
最后,找到剪辑只是基本的搜索逻辑。如果您在单词级别执行此操作,则只需使用单词命名每个剪辑并分割输入并生成音频标记。 if
...