Question

当我使用 CURL 提交文本到语音的转换时，我得到一个听起来不错的音频文件，但有点机器人和鼻音。但是这个演示页面听起来很棒，我永远无法获得如此高质量的结果。我没有指定要使用的声音，所以它使用了一些默认值。

https://www.ibm.com/demos/live/tts-demo/self-service/home

上面的页面与我有什么不同？

我的 curl 命令是这样的：

$ curl -u "apikey:api-removed" --header "Content-Type: application/json" --header "Accept: audio/ogg" -d "@Greeting_Script.txt" --output greeting.ogg --dump-header "logfile.txt" "url-removed"

Redgar Tech 回复了 “如果您在演示页面上看到过，您使用的是语音的神经增强 DNN 版本。在这里，您使用的是他们没有完美和训练的常规语音。”

不过这个链接

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

说

“如果您在合成请求中省略了可选的语音参数，则该服务默认使用 en-US_MichaelV3Voice”

我在合成请求中省略了可选的语音参数（见上文），但我没有得到使用 en-US_MichaelV3Voice 的神经增强语音的结果。

所以我尝试为 en-US_MichaelV3Voice 添加语音参数，现在结果是清晰的神经增强版本，与演示页面提供的相同。

所以这意味着说明省略可选语音参数默认为 en-US_MichaelV3Voice 的文档是不正确的。我觉得可能默认是en-US_MichaelVoice，不是神经增强版。

Answer 1

我已经确认，如果我从合成请求中省略可选的语音参数，该服务默认使用 en-US_MichaelVoice。证据在日志文件中：

会话名称：EIHRWWSDMRCEZXKA-en-US_MichaelVoice

这意味着此链接中的信息

https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices

指出“如果您从合成请求中省略可选的语音参数，则该服务默认使用 en-US_MichaelV3Voice。”不正确。

当我为 en-US_MichaelV3Voice 添加语音参数时，日志文件包含以下行：

会话名称：FIPYVOXYBMNRSQZQ-en-US_MichaelV3Voice

我的文本到语音的语音结果听起来从来没有 IBM 演示页面上的那么好 (2)

1 个答案: