我的文本到语音的语音结果听起来从来没有 IBM 演示页面上的那么好 (2)

时间:2021-04-21 22:02:15

标签: watson-text-to-speech

当我使用 CURL 提交文本到语音的转换时,我得到一个听起来不错的音频文件,但有点机器人和鼻音。但是这个演示页面听起来很棒,我永远无法获得如此高质量的结果。我没有指定要使用的声音,所以它使用了一些默认值。

https://www.ibm.com/demos/live/tts-demo/self-service/home

上面的页面与我有什么不同?

我的 curl 命令是这样的:

$ curl -u "apikey:api-removed" --header "Content-Type: application/json" --header "Accept: audio/ogg" -d "@Greeting_Script.txt" --output greeting.ogg --dump-header "logfile.txt" "url-removed"

Redgar Tech 回复了 “如果您在演示页面上看到过,您使用的是语音的神经增强 DNN 版本。在这里,您使用的是他们没有完美和训练的常规语音。”

不过这个链接

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

“如果您在合成请求中省略了可选的语音参数,则该服务默认使用 en-US_MichaelV3Voice”

我在合成请求中省略了可选的语音参数(见上文),但我没有得到使用 en-US_MichaelV3Voice 的神经增强语音的结果。

所以我尝试为 en-US_MichaelV3Voice 添加语音参数,现在结果是清晰的神经增强版本,与演示页面提供的相同。

所以这意味着说明省略可选语音参数默认为 en-US_MichaelV3Voice 的文档是不正确的。我觉得可能默认是en-US_MichaelVoice,不是神经增强版。

1 个答案:

答案 0 :(得分:0)

我已经确认,如果我从合成请求中省略可选的语音参数,该服务默认使用 en-US_MichaelVoice。证据在日志文件中:

会话名称:EIHRWWSDMRCEZXKA-en-US_MichaelVoice

这意味着此链接中的信息

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

指出“如果您从合成请求中省略可选的语音参数,则该服务默认使用 en-US_MichaelV3Voice。”不正确。

当我为 en-US_MichaelV3Voice 添加语音参数时,日志文件包含以下行:

会话名称:FIPYVOXYBMNRSQZQ-en-US_MichaelV3Voice