作为用于将音频转换为文本的gram文件,我们只能识别有限数量的单词。有没有办法将任何音频转录为文本。我们可以增强gram文件以包含所有英语单词,以便可以识别任何英语单词吗?或者我们可以做其他事情,以便我可以发布将任何音频文件转换为文本的目的吗?我浪费了很多时间。任何想法将不胜感激。提前谢谢。
答案 0 :(得分:1)
熟悉语音识别概念首先阅读教程
http://cmusphinx.sourceforge.net/wiki/tutorial
包含所有单词的语法称为语言模型。可在此处下载美国英语的语言模型:
要为其他语言创建语言模型,您可以查看教程
http://cmusphinx.sourceforge.net/wiki/tutoriallm
要使用语言模型进行解码,您可以使用sphinx4中的Transcriber演示或使用-lm选项的pocketsphinx_continuous二进制文件。像这样:
pocketsphinx_continuous -infile file.wav -lm en_us.lm.dmp