我正在尝试构建一个程序,该程序将查找书中哪个页面/句子被读取到麦克风。我有这本书的文字和音频内容。用户将从随机页面开始阅读,并且程序应该与用户同步并显示正在阅读的书的部分。这似乎是无用的程序,但请耐心等待..
类似shazam的程序是否有效?我不确定这些算法对语音的效果如何。此外,扬声器将有所不同,可能具有重音和不同的读取速度。
另一种方法是将语音转换为文本并搜索书中的文本。问题在于,该书的语言是罕见的,没有可用的语言模型。此外,该脚本不使用拉丁字符,这使编程变得困难(至少对我来说)。
有没有人可以推荐的解决方案?从音频文件中提取特征并与“实时”提取的特征(来自麦克风)进行比较是否有效?哪些功能?
我可以从哪个实现/代码开始?任何语言都可以,但更喜欢C。
答案 0 :(得分:1)
您需要使用语音识别器。
直接从书籍文本创建语言模型。这将使书籍阅读的识别非常准确,包括原始阅读和用户阅读。
使用此语言模型识别图书并为单词指定时间戳或使用更高级的算法执行文本到音频对齐。
使用特定于图书的语言模型识别用户的语音,并使用识别的文本在书中显示位置。
您可以使用CMUSphinx来完成上述任务。