应用错误收集

wav vs opus：语音到文本的成绩单质量

时间：2016-05-04 05:03:19

标签： speech-recognition ibm-cloud speech-to-text ibm-watson

我正在使用IBM Watson的语音到文本服务来生成少数电话音频文件（8kHz）的成绩单。我已经尝试了相同文件的wav和opus版本。使用opus格式时，我没有看到成绩单质量有任何重大降低。我正在考虑只存储文件的opus格式，以减少存储空间需求并减少文件传输时间。一般来说，使用wav格式来获得更高质量的成绩单会更好吗？如果我们使用opus格式，是否有任何已知的成绩单质量下降？

2 个答案:

答案 0 :(得分：2)

如果比特率足够，OPUS不应降低识别准确度。您应该使用不会降低精度的最低比特率，这可以通过实验确定（尝试不同的比特率并计算字错误率）。

另外，您可以使用FLAC，它是无损的，与未压缩的wav相比，通常提供5倍的压缩因子。

最后，请记住，您不希望采样率高于16kHz，因为这不会对识别有用，并会大大增加存储空间。

答案 1 :(得分：0)

只有您了解用例的要求（现在和未来），因此很难提供直接的答案。话虽如此，我个人认为作品质量非常好。

以下是有关您可能感兴趣的Opus编解码器质量的一些链接：