我正在写一个(离线)语音识别应用。我已经设置了CMU Sphinx4并使用了一些包含的演示词典。但是,它们的范围有限(例如,数字,城市等)。
是否有更全面的语法?或者可能是更多这些有限语法的存储库?在创建自己的选项之前,我正试图用尽任何其他选项。
谢谢
答案 0 :(得分:2)
语法总是针对您的特定目标,因此分享这些目标是没有意义的。即使像数字这样简单的主题也可能因具体应用而异:我们在常规语音中使用“0”和“oh”来表示“0”,而科学家也使用“not”来表示相同的目的。
Sphinx4支持JSGF和GRXML格式,您可以轻松找到两者的规格。
答案 1 :(得分:0)
你似乎误用了字典语法。它们完全不同。
Sphinx不仅支持语法,还支持n-gram语言模型。您可能会发现它们更加通用。这样的模型可以自动生成,如果给出一个反映真实用法句子的大型语料库,它将起作用。
至于字典 - 为英语创建它们相对简单。人们甚至可以考虑从在线词典中读取语音词表示并将其转换为sphinx格式的工具。唯一的输入是单词列表。
答案 2 :(得分:0)
我相信this paper会对你的努力有所帮助。本文需要为一种新语言斯瓦希里语创建语法和字典