我已经尝试过Watson Speech to Text API for MP3以及WAV文件。根据我的观察,与WAV相比,如果以MP3格式给出,相同长度的音频花费的时间更少。对于MP3文件,连续10次使用不同音频的API调用平均花费8.7秒。另一方面,WAV格式的相同输入平均为11.1秒。服务响应时间是否取决于文件类型?建议使用哪种文件类型来更快地获得结果?
答案 0 :(得分:1)
不同的编码格式具有不同的比特率。 mp3和opus是有损压缩格式(虽然适用于比特率不太低时的语音识别),因此它们提供最低的比特率。如果您需要在网络上减少通常更好的延迟字节数,那么根据您的网络速度,您可以看到使用较低比特率的编码时缩短处理时间。
然而,关于实际的语音识别过程(忽略网络上的数据传输),所有编码同样快,因为在识别开始之前所有音频都是未压缩的,如果需要,并转换为目标模型的采样率(宽带或窄带)。