应用错误收集

使用分类器的SMOTE过采样以进行异常检测

时间：2018-07-16 12:44:44

标签： machine-learning scikit-learn oversampling

我有传感器数据，我想在训练集上使用LOF进行实时异常检测以检测异常，然后将标记的数据应用于分类器以对新数据点进行分类。我之所以考虑使用SMOTE，是因为我想在训练数据中增加更多的点来克服分类不平衡的问题，但是问题是SMOTE创建了许多正常范围内的点。如何在不创建正常数据范围内样本的情况下进行过采样？

the graph for the data before applying SMOTE.

data after SMOTE

1 个答案:

答案 0 :(得分：0)

SMOTE将线性插值少数群体样本的 k 最近邻居之间的综合点。这意味着您将最终得到样本与其邻居之间的点。当样品到处都是这样时，就可以在中间创建合成点了。

SMOTE应该真正用于识别更多specific regions in the feature space as the decision region for the minority class。这似乎不是您的用例。您想知道哪些点本身“不属于”。

对于DBSCAN来说，这似乎是一个相当不错的用例，这是一种基于密度的聚类算法，可以将eps以外的点识别为不属于同一邻域。