从pandas数据框中删除异常值的有效方法是什么? 我有一个pandas数据框,我需要从数据框中删除异常点。
max_threads=1001
我尝试使用link中的解决方案 但没有删除任何积分。即使是相同的sklearn实现也很有用。
答案 0 :(得分:0)
这里确实存在两个问题:1)异常值检测,以及2)从数据帧中删除它们。
问题#2相当简单。一旦检测到列中的异常值,就可以使用类似的内容:
df = df[df.loc[:,'column_name'] < high_threshold]
df = df[df.loc[:,'column_name'] > low_threshold]
现在#1,异常值检测方法差异很大。如果您只有这4个维度而不是那么多数据,那么Median Absolute Deviation方法可能就足够了,不需要sklearn。
由于我不了解您的申请,我会指向this documentation on outlier detection in sklearn。