什么是上下文数据的简单异常值检测算法?

时间:2017-02-27 21:06:54

标签: database algorithm machine-learning outliers

我正在寻找一种简单的异常值检测技术,可以帮助我摆脱数据集中的异常值。 我有200万个样本是从3000个正弦循环中获得的局部放电测量值。这意味着即使在一个周期中的小程度变化,测量设备也能够测量必要的数据。 因此,我的数据是随着时间的推移将正弦波应用于绝缘体并记录它们以获得200万个样本的测量结果。 这里的问题是数据有上下文,我无法使用常规方法和算法(如kNN搜索)检测异常值,因为重要数据将从数据集中删除,因为它们与其他数据的距离很远。 我搜索过,发现在上下文数据集中有异常检测的方法不同。你能帮助我吗?

1 个答案:

答案 0 :(得分:0)

1选项是执行特征工程并将您的上下文数据转换为数字数据,例如" 1热编码" ,我们得到的数量,例如平均每天出现5次特征的火车"然后每天进行预测。