我终于做到了。训练后,我的WER(字错误率)为0%。我只有一个用于简单语音识别的小型数据集(仅适用于另一种语言中的“是”和“否”)。我使用sphinxtrain进行了训练(126个训练文件,12个测试文件)。音频文件的长度约为5s,包含8个字(混合是/否)。
经过培训,我决定将我的测试文件通过Pocketsphinx运行。我测试的几乎每个文件都有至少1个字错误。有时它比预期多认出1-2个单词。有时,它会将“是”识别为“否”。
答案 0 :(得分:2)
我想知道为什么我从狮身人面像和口袋狮身人面像中得到不同的结果。
您没有足够的培训数据。
我还想知道如何使用Pocketsphinx改善结果。 (特别是Pocketsphinx将一个“否”识别为两个“否”的东西。
使用更多训练数据。