从pandas数据框中删除Outlier Row

时间:2017-09-24 20:28:28

标签: python pandas dataframe scikit-learn outliers

从pandas数据框中删除异常值的有效方法是什么? 我有一个pandas数据框,我需要从数据框中删除异常点。

max_threads=1001

我尝试使用link中的解决方案 但没有删除任何积分。即使是相同的sklearn实现也很有用。

1 个答案:

答案 0 :(得分:0)

这里确实存在两个问题:1)异常值检测,以及2)从数据帧中删除它们。

问题#2相当简单。一旦检测到列中的异常值,就可以使用类似的内容:

df = df[df.loc[:,'column_name'] < high_threshold]
df = df[df.loc[:,'column_name'] > low_threshold]

现在#1,异常值检测方法差异很大。如果您只有这4个维度而不是那么多数据,那么Median Absolute Deviation方法可能就足够了,不需要sklearn。

由于我不了解您的申请,我会指向this documentation on outlier detection in sklearn