新的语音识别,所以请原谅我的无知。我正在尝试获得紧急电台公告的成绩单example1 example2。显然,我做错了,因为没有一个先进的ASR(自动语音识别)工具能够理解它。
我已尝试IBM Watson,Google Speech甚至Cobalt。他们都不能从音频中收集最基本的信息。
所以这是两部分的问题。音频就像上面的例子甚至可以通过ASR工具使用吗?在通过API发送之前,我应该进行一些转换吗?
答案 0 :(得分:2)
上述示例的音频是否可以通过ASR工具使用?
是的,你可以非常可靠地识别这些东西,但你必须建立一个自定义的ASR系统,因为传统的ASR系统不能用这种音频质量。
在通过API发送之前我是否应该进行一些转换?
不,使用经过特定类型数据培训的专业模型会更有效率。
Cobalt可以为您构建自定义解决方案。您可以使用像Kaldi这样的开源工具包来自己构建模型。另一家检查此类音频专用解决方案的公司是Adacel,他们在机场塔楼工作,所以有相似类型的音频。
有关该主题的研究,您可以检查有关自定义Apollo mission transcription system的项目。
您还需要投入更多精力来获得更高质量的音频。