在声音识别中进行异常值检测的方法?

时间:2016-01-08 02:42:28

标签: machine-learning speech-recognition pattern-recognition sound-recognition

有一些模型可以识别2级声音,它们是A级和B级。 如何将C类声音识别为异常声音? 我试图通过帧识别时设置阈值。 高于70% - > A级或B级 别的 - >不正常 例如, 如果声音有10帧,结果是 框架1 2 3 4 5 6 7 8 9 10       A B A B A A A B A A A = 7 B = 3 - > A级 框架1 2 3 4 5 6 7 8 9 10       B B A B A A A B A A A = 6 B = 4 - >不正常 表现非常糟糕。 我该怎么办 ?

1 个答案:

答案 0 :(得分:3)

有两种方法可以解决这个问题:作为分类问题,以及异常检测问题。

<强>分类

作为分类问题,可能会引入系统应用程序中可能遇到的外部声音,并使用它来创建第三类。对于这个第三类来说,拥有大量的声音很重要,而且可能有很多声音。

有了这个,你可能想要使用成本敏感的一个对所有,所以调整精度/召回来挑选出A和B类。

此方法的好处是您不必为异常值/异常模型设置任意阈值。在这种情况下,距离可能很难衡量,因此找到合适的阈值可能很困难。

许多人,包括我自己在类似于你的问题的讨价还价比赛中使用了这种技术。 https://www.kaggle.com/c/axa-driver-telematics-analysis

离群值/异常检测

由于您使用的是神经网络,因此可以构建自动编码器。这将发现一组声音,代表您试图检测的声音。您可以使用重建损失作为异常检测的距离度量。这仍然需要您确定阈值,最好使用一些现有的异常/异常数据来执行此操作。