我正在尝试将iOS应用中的文本同步到同时流式传输的音频。该文本是以前手动完成的非常精确的音频转录。是否可以使用关键字定位或音频文本来帮助解决这个问题?
文本已经使用clucene搜索引擎在应用程序中编入索引,因此在文本的任何段落中搜索任何文本/单词字符串都非常容易。即使音频到文本转换不是100%准确,搜索引擎也应该能够处理它,并且仍然可以在几次尝试中找到文本中的最佳匹配。
你能指点我的音频到文本转换的任何开源库有助于此吗?我希望能够直接将流式音频转换为文本并且不依赖于语音文本库中常见的麦克风,因为可能存在用户可能使用带有应用程序的耳机和/或它们可能是背景噪音的情况。
答案 0 :(得分:0)
要在iOS上识别audiofile或audiostream,您可以将CMUSphinx与Openears一起使用。
要识别您需要设置pathToTestFile
的文件,请参阅详情
http://www.politepix.com/openears/#PocketsphinxController_Class_Reference
要识别流,您可以通过Pocketsphinx API将音频输入到pocketsphinx
由于您事先知道了文本,因此您可以从中创建语法,并且识别将是准确的。