应用错误收集

时间：2019-03-24 04:50:03

标签： text-to-speech speech-synthesis google-text-to-speech

我正在通过Google Cloud的文本到语音API生成语音，我想在说出单词时突出显示它们。

是否可以获取口语或句子的时间戳？

答案 0 :(得分：1)

这个问题似乎已经很流行了，所以我想我应该分享自己最终做的事情。此方法可能仅适用于英语或类似语言。

我首先在会导致说话中断的所有标点符号上分割文本。每个“句子”分别转换为语音。最终的音频文件在末尾具有看似随机的静默数量，需要在加入它们之前将其删除，这可以使用FFmpeg silencedetect过滤器来完成。然后，可以以适当的间隔加入音频文件。可以在句子中线性插入近似单词的时间戳。

答案 1 :(得分：0)