我正在使用Watson Text to Speech服务生成MP3和MP3中的音频文件。 WAV格式。这些音频的默认采样频率是多少?有没有办法在点击API(MP3和WAV)时指定采样率? Watson Speech to Text建议使用16 kHz的音频作为宽带模型。
答案 0 :(得分:0)
默认采样率为22,050 Hz,使用rate参数指定。从文档中我可以看到它是可选的参数。 FYR - https://console.bluemix.net/docs/services/text-to-speech/http.html#format
答案 1 :(得分:0)
这些信息很容易在文档中找到。
TextToSpeech语音创建为22050 Hz,您可以强制使用不同的输出采样率,但服务只会在提供结果之前对其进行向上/向上采样。
SpeechToText通常支持BroadBand为16000 Hz,窄带为8000 Hz。最好的方法是在收集器中使用音频,其中包含标题,flac,wav(不是pcm)中的采样率信息。 对于SpeechToText,重要的是音频确实具有相关频谱的信息,因此您无法将8kHZ电话通信上采样到16kHZ并将其发送到宽带型号。