应用错误收集

Watson Speech To Text服务可以更快地处理哪种类型的音频文件？

时间：2017-12-06 05:43:02

标签： audio ibm-cloud speech-to-text watson

我已经尝试过Watson Speech to Text API for MP3以及WAV文件。根据我的观察，与WAV相比，如果以MP3格式给出，相同长度的音频花费的时间更少。对于MP3文件，连续10次使用不同音频的API调用平均花费8.7秒。另一方面，WAV格式的相同输入平均为11.1秒。服务响应时间是否取决于文件类型？建议使用哪种文件类型来更快地获得结果？

1 个答案:

答案 0 :(得分：1)

不同的编码格式具有不同的比特率。 mp3和opus是有损压缩格式（虽然适用于比特率不太低时的语音识别），因此它们提供最低的比特率。如果您需要在网络上减少通常更好的延迟字节数，那么根据您的网络速度，您可以看到使用较低比特率的编码时缩短处理时间。

然而，关于实际的语音识别过程（忽略网络上的数据传输），所有编码同样快，因为在识别开始之前所有音频都是未压缩的，如果需要，并转换为目标模型的采样率（宽带或窄带）。