应用错误收集

时间：2017-06-20 22:59:13

标签： ffmpeg speech-recognition speech-to-text ibm-watson

我正在使用IBM Watson转录我们拥有的视频库。我目前正在对它的功效和准确性进行初步研究。

有问题的视频可以达到非常好的音质，并且根据Watson文档，我应该使用宽带模型来转录它们。

然而，我使用窄带和宽带进行了测试，我发现Narrowband在某些情况下总是稍好一些或更好（高达10％）。

还有其他人做过类似的测试吗？这与文档相反，所以我有点不愿意继续使用Narrowband来做所有事情，但我可能不得不根据结果。

我正在使用ffmpeg将视频转换为音频文件以发送给Watson，音频文件显示48KHz的采样率，这再次意味着我应该使用并使用宽带获得更好的结果。

希望有人做过类似的研究，可以提供帮助。

提前致谢。

答案 0 :(得分：3)

你知道音频的原始采样率是多少吗？也许它最初以8k记录，然后进行上采样。如果是这种情况，原始较低频率将丢失，正确使用的模型将是窄带模型。您可以在频谱图中看到这一点，例如使用audacity（https://github.com/audacity/audacity）。

另一种解释是，视频中的n-gram可以通过窄带系统使用的语言模型更好地预测。我建议与Watson支持团队共享您的音频文件以获得进一步的洞察力（您可以访问Bluemix门户，然后单击“支持”）。