使用分类器的SMOTE过采样以进行异常检测

时间:2018-07-16 12:44:44

标签: machine-learning scikit-learn oversampling

我有传感器数据,我想在训练集上使用LOF进行实时异常检测以检测异常,然后将标记的数据应用于分类器以对新数据点进行分类。我之所以考虑使用SMOTE,是因为我想在训练数据中增加更多的点来克服分类不平衡的问题,但是问题是SMOTE创建了许多正常范围内的点。 如何在不创建正常数据范围内样本的情况下进行过采样?

the graph for the data before applying SMOTE.

data after SMOTE

1 个答案:

答案 0 :(得分:0)

SMOTE将线性插值少数群体样本的 k 最近邻居之间的综合点。这意味着您将最终得到样本与其邻居之间的点。当样品到处都是这样时,就可以在中间创建合成点了。

SMOTE应该真正用于识别更多specific regions in the feature space as the decision region for the minority class。这似乎不是您的用例。您想知道哪些点本身“不属于”。

对于DBSCAN来说,这似乎是一个相当不错的用例,这是一种基于密度的聚类算法,可以将eps以外的点识别为不属于同一邻域。