Watson语音到文本:窄带产生比宽带更好的结果?

时间:2017-06-20 22:59:13

标签: ffmpeg speech-recognition speech-to-text ibm-watson

我正在使用IBM Watson转录我们拥有的视频库。我目前正在对它的功效和准确性进行初步研究。

有问题的视频可以达到非常好的音质,并且根据Watson文档,我应该使用宽带模型来转录它们。

然而,我使用窄带和宽带进行了测试,我发现Narrowband在某些​​情况下总是稍好一些或更好(高达10%)。

还有其他人做过类似的测试吗?这与文档相反,所以我有点不愿意继续使用Narrowband来做所有事情,但我可能不得不根据结果。

我正在使用ffmpeg将视频转换为音频文件以发送给Watson,音频文件显示48KHz的采样率,这再次意味着我应该使用并使用宽带获得更好的结果。

希望有人做过类似的研究,可以提供帮助。

提前致谢。

1 个答案:

答案 0 :(得分:3)

你知道音频的原始采样率是多少吗?也许它最初以8k记录,然后进行上采样。如果是这种情况,原始较低频率将丢失,正确使用的模型将是窄带模型。您可以在频谱图中看到这一点,例如使用audacity(https://github.com/audacity/audacity)。

另一种解释是,视频中的n-gram可以通过窄带系统使用的语言模型更好地预测。我建议与Watson支持团队共享您的音频文件以获得进一步的洞察力(您可以访问Bluemix门户,然后单击“支持”)。