Google Cloud文字转语音字时间戳

时间:2019-03-24 04:50:03

标签: text-to-speech speech-synthesis google-text-to-speech

我正在通过Google Cloud的文本到语音API生成语音,我想在说出单词时突出显示它们。

是否可以获取口语或句子的时间戳?

2 个答案:

答案 0 :(得分:1)

这个问题似乎已经很流行了,所以我想我应该分享自己最终做的事情。此方法可能仅适用于英语或类似语言。

我首先在会导致说话中断的所有标点符号上分割文本。每个“句子”分别转换为语音。最终的音频文件在末尾具有看似随机的静默数量,需要在加入它们之前将其删除,这可以使用FFmpeg silencedetect过滤器来完成。然后,可以以适当的间隔加入音频文件。可以在句子中线性插入近似单词的时间戳。

答案 1 :(得分:0)

您可以使用 SSML v1beta1 版本的Google Cloud文本语音API:https://cloud.google.com/text-to-speech/docs/reference/rest/v1beta1/text/synthesize#TimepointType

  1. <mark> SSML标记添加到文本中您要为其添加时间戳的点(可能在每个句子的末尾)。
  2. 将TimepointType设置为SSML_MARK。如果未设置此字段,则默认情况下不返回时间点。