应用错误收集

我目前正在为我的大学开展一个项目。任务是编写语音识别系统，该系统将在后台等待几个命令的手机上运行（如。调用0 123 ......）。

这是2个月的项目所以它不一定非常准确。可接受的噪音量可能很小，而且话语会被沉默的时刻分开。

我目前正在加载以RAW 16位PCM格式编码的样本字。将其拆分为块（每秒约50个）并在每个块上运行FFT以获得频谱。

要解决的问题是： 1）经历较长的录音并将其分成单词。 2）找到最匹配的单词

1）我正在考虑只是检查块后的块，如果我遇到几个具有更高人类语音频率的块，则假设该词已经开始。无论如何，我正在寻找可能有助于此的资源。

2）这个接缝更加坚硬。是否有必要将HMM用于这样的系统，或者假设词汇量很小（20个单词）可能有更简单的方法？

编辑：项目的重点是我自己编写系统，所以我不能使用像Sphinx或HTK这样的现成库。

此致卡罗尔