wav vs opus:语音到文本的成绩单质量

时间:2016-05-04 05:03:19

标签: speech-recognition ibm-cloud speech-to-text ibm-watson

我正在使用IBM Watson的语音到文本服务来生成少数电话音频文件(8kHz)的成绩单。我已经尝试了相同文件的wav和opus版本。使用opus格式时,我没有看到成绩单质量有任何重大降低。我正在考虑只存储文件的opus格式,以减少存储空间需求并减少文件传输时间。一般来说,使用wav格式来获得更高质量的成绩单会更好吗?如果我们使用opus格式,是否有任何已知的成绩单质量下降?

2 个答案:

答案 0 :(得分:2)

如果比特率足够,OPUS不应降低识别准确度。您应该使用不会降低精度的最低比特率,这可以通过实验确定(尝试不同的比特率并计算字错误率)。

另外,您可以使用FLAC,它是无损的,与未压缩的wav相比,通常提供5倍的压缩因子。

最后,请记住,您不希望采样率高于16kHz,因为这不会对识别有用,并会大大增加存储空间。

答案 1 :(得分:0)

只有您了解用例的要求(现在和未来),因此很难提供直接的答案。话虽如此,我个人认为作品质量非常好。

以下是有关您可能感兴趣的Opus编解码器质量的一些链接: