audio - 环境声音分类的分类方法和机器学习模型的建议

我目前在环境声音分类方面存在问题。我想使用音频分类来检测特定类型的声音（这确实是非常不同的，很容易被人耳区分）。但是还有其他类型的声音可能发生，这对我来说并不重要，但我只需要将它们归类为我的“特定类型的声音”。

我正在尝试使用GMM和LFCC进行分类。一个GMM模型由所有LFCC从该类型的col声声音训练，GMM模型用于所有其他LFCC（来自某些非碰撞环境声音或来自我不想要的其他类型的碰撞）。目前的性能非常差，具有非常高的召回率但是精度极低。我发现虽然我的GMM模型对于“特定类型的声音”在声音类型没有发生的情况下会给出非常低的概率，但除了我想要的声音之外的所有声音的另一个GMM模型也会给出低概率这是所有其他类型的碰撞正在发生的情况。

对于这种情况，我应该切换到其他模型，如ANN或SVM，还是需要添加更多GMM模型？例如，我考虑的是GMM_1，我想要的碰撞类型，GMM_2用于其他类型的碰撞，GMM_3用于其他任何类型的碰撞。但是我很难得到“所有其他类型的碰撞”，我也不确定这种方式是否会提高准确性。

环境声音分类的分类方法和机器学习模型的建议

1 个答案: