我正在通过Google Cloud的文本到语音API生成语音,我想在说出单词时突出显示它们。
是否可以获取口语或句子的时间戳?
答案 0 :(得分:1)
这个问题似乎已经很流行了,所以我想我应该分享自己最终做的事情。此方法可能仅适用于英语或类似语言。
我首先在会导致说话中断的所有标点符号上分割文本。每个“句子”分别转换为语音。最终的音频文件在末尾具有看似随机的静默数量,需要在加入它们之前将其删除,这可以使用FFmpeg silencedetect
过滤器来完成。然后,可以以适当的间隔加入音频文件。可以在句子中线性插入近似单词的时间戳。
答案 1 :(得分:0)
您可以使用 SSML 和 v1beta1 版本的Google Cloud文本语音API:https://cloud.google.com/text-to-speech/docs/reference/rest/v1beta1/text/synthesize#TimepointType
<mark>
SSML标记添加到文本中您要为其添加时间戳的点(可能在每个句子的末尾)。SSML_MARK
。如果未设置此字段,则默认情况下不返回时间点。