我目前正在评估cyrrebt语音识别(SR)技术,似乎有不少API和服务涌现。
我自己对SR的体验是,关键字匹配适用于多个扬声器,并且在受控制的环境中,听写适用于训练有素的扬声器。这仍然是真的吗?是否有任何好的方法可以对任意音频文件的文本进行语音处理 - 可以是从音频流中进行关键字匹配以进行索引,也可以尝试完全转录。
对于细微差别与其他引擎与开源解决方案的比较,是否有人有任何意见?
答案 0 :(得分:3)
虽然围绕语音识别设计的更新,更友好的应用程序将继续被编写,但语音识别本身已经到了一堵砖墙。即使是最好的发动机的准确性也会在噪音的情况下迅速下降,这对于经常在嘈杂环境中使用该技术的智能手机用户来说是个大问题。
一个更大且相关的问题是,语音识别器无法在满堂的声音(鸡尾酒派对问题)中挑出一个声音,这是大多数人相对容易处理的事情。在有人解决这个问题之前,我担心语音识别技术不会取得太大进展。这是一个十亿美元的问题,因为解决方案几乎可以在一夜之间使所有现有的语音识别引擎过时。