我一直在尝试Watson的TTS DNN声音,听起来很棒。
我遇到的问题是,我们需要在声音的开始和结束之间大约有500ms的间隔,以避免TTS和其他计时需求自然发生的初始音频捕捉。
我尝试在开始时没有碰运气就使用了SSML。可以很好地嵌入语音中,但不会在前后添加中断。
还有其他方法可以使用Watson的SSML或其他设置吗?
感谢您的帮助!
我在文字前后都尝试过。它可以在文本内运行,而不是在文本前后。
<speak version="1.0"><break time="500ms"/>Hello World<break time="500ms"/></speak>