应用错误收集

IBM Watson Text to Speech服务生成的音频的采样频率是多少？

时间：2017-12-11 10:26:30

标签： audio text-to-speech speech-to-text ibm-watson sampling

我正在使用Watson Text to Speech服务生成MP3和MP3中的音频文件。 WAV格式。这些音频的默认采样频率是多少？有没有办法在点击API（MP3和WAV）时指定采样率？ Watson Speech to Text建议使用16 kHz的音频作为宽带模型。

2 个答案:

答案 0 :(得分：0)

默认采样率为22,050 Hz，使用rate参数指定。从文档中我可以看到它是可选的参数。 FYR - https://console.bluemix.net/docs/services/text-to-speech/http.html#format

答案 1 :(得分：0)

这些信息很容易在文档中找到。

TextToSpeech语音创建为22050 Hz，您可以强制使用不同的输出采样率，但服务只会在提供结果之前对其进行向上/向上采样。

SpeechToText通常支持BroadBand为16000 Hz，窄带为8000 Hz。最好的方法是在收集器中使用音频，其中包含标题，flac，wav（不是pcm）中的采样率信息。对于SpeechToText，重要的是音频确实具有相关频谱的信息，因此您无法将8kHZ电话通信上采样到16kHZ并将其发送到宽带型号。