我目前在环境声音分类方面存在问题。我想使用音频分类来检测特定类型的声音(这确实是非常不同的,很容易被人耳区分)。但是还有其他类型的声音可能发生,这对我来说并不重要,但我只需要将它们归类为我的“特定类型的声音”。
我正在尝试使用GMM和LFCC进行分类。一个GMM模型由所有LFCC从该类型的col声声音训练,GMM模型用于所有其他LFCC(来自某些非碰撞环境声音或来自我不想要的其他类型的碰撞)。目前的性能非常差,具有非常高的召回率但是精度极低。我发现虽然我的GMM模型对于“特定类型的声音”在声音类型没有发生的情况下会给出非常低的概率,但除了我想要的声音之外的所有声音的另一个GMM模型也会给出低概率这是所有其他类型的碰撞正在发生的情况。
对于这种情况,我应该切换到其他模型,如ANN或SVM,还是需要添加更多GMM模型?例如,我考虑的是GMM_1,我想要的碰撞类型,GMM_2用于其他类型的碰撞,GMM_3用于其他任何类型的碰撞。但是我很难得到“所有其他类型的碰撞”,我也不确定这种方式是否会提高准确性。
答案 0 :(得分:0)
好吧,我必须回答我自己的问题。这几天我使用我在问题中提到的方式使用三个GMM的模型进行了一些测试。它仍然可以正常工作。如果我有更多的培训数据,我相信我的准确度可以达到90%以上。