我在语音识别方面遇到了一个异常问题。我目前正在帮助开发用于语音转录的自动工具 神经认知实验室的反应。该任务包括命名图片-每张图片都需要给出一个单词的答案,并且 保存在单独的.wav文件中。
我正在使用GoogleCloud语音文本API。我用Python编写了一个脚本,它的工作原理很好,甚至还不错。
这里的问题是,我需要一个非常具体的记录,指出人们在提供最终答案之前所发出的任何其他“噪音”(例如,犹豫:“ eeee-cat”,改正自己:“ poli-postman”)。从项目的角度来看,在给出正确答案之前所说的内容并不是很重要,但在做出回答之前,该人犹豫或犯了一个错误。 GoogleCloud自动“纠正”说话者,“猜测”预期的答案(从而省去了其他声音或音节) 在适当的反应开始之前。
我试图使用enable_word_confidence和max_alternatives来识别有问题的单词(较低的置信度和较高的替代数量,这是一个问题的标记),但没有帮助。我在堆栈溢出中看到了类似的问题:
How to disable sentence-level auto correction in Google Cloud Speech-to-Text API
但是我不确定是否可以实施针对我的案例的建议。
您知道通过使用Google Cloud(或其他云/解决方案/程序)的其他功能在哪里寻找解决方案吗?
提前谢谢!