当我使用 CURL 提交文本到语音的转换时,我得到一个听起来不错的音频文件,但有点机器人和鼻音。但是这个演示页面听起来很棒,我永远无法获得如此高质量的结果。我没有指定要使用的声音,所以它使用了一些默认值。
https://www.ibm.com/demos/live/tts-demo/self-service/home
上面的页面与我有什么不同?
我的 curl 命令是这样的:
$ curl -u "apikey:api-removed" --header "Content-Type: application/json" --header "Accept: audio/ogg" -d "@Greeting_Script.txt" --output greeting.ogg --dump-header "logfile.txt" "url-removed"
Redgar Tech 回复了 “如果您在演示页面上看到过,您使用的是语音的神经增强 DNN 版本。在这里,您使用的是他们没有完美和训练的常规语音。”
不过这个链接
https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices
说
“如果您在合成请求中省略了可选的语音参数,则该服务默认使用 en-US_MichaelV3Voice”
我在合成请求中省略了可选的语音参数(见上文),但我没有得到使用 en-US_MichaelV3Voice 的神经增强语音的结果。
所以我尝试为 en-US_MichaelV3Voice 添加语音参数,现在结果是清晰的神经增强版本,与演示页面提供的相同。
所以这意味着说明省略可选语音参数默认为 en-US_MichaelV3Voice 的文档是不正确的。我觉得可能默认是en-US_MichaelVoice,不是神经增强版。
答案 0 :(得分:0)
我已经确认,如果我从合成请求中省略可选的语音参数,该服务默认使用 en-US_MichaelVoice。证据在日志文件中:
会话名称:EIHRWWSDMRCEZXKA-en-US_MichaelVoice
这意味着此链接中的信息
https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-voices
指出“如果您从合成请求中省略可选的语音参数,则该服务默认使用 en-US_MichaelV3Voice。”不正确。
当我为 en-US_MichaelV3Voice 添加语音参数时,日志文件包含以下行:
会话名称:FIPYVOXYBMNRSQZQ-en-US_MichaelV3Voice