我要求签订软件合同,要求从非常有限的集合中识别口头命令,例如“向上”,“向下”,“关闭”,“打开”等。
我似乎不需要全面的语音识别,我。即我不需要进行波形到文本的转换。是否有特定的术语我可以google?
我根本不了解这个主题能够自己编写这些东西。如果我想要解决这个问题,我需要一个相当成熟的库来解决这个子问题,最好是开源的。
目标平台将是运行Linux的某种工业PC,我会使用C或Python作为应用程序。
答案 0 :(得分:1)
这看起来像是一个合适的候选人:CMU Sphinx。
但是没试过。
答案 1 :(得分:0)
你可以查看pyspeech,但我认为它只是Windows。见Speech processing library in Python for speech to text