用离群值扩展该系列的最佳方法

时间:2018-08-01 15:02:32

标签: python pandas scikit-learn

我有一个熊猫数据框,其中大多数系列的分布类似于X,如下所示。 90%的数据点位于较小范围内,例如,以下系列中的-0.5和0.5包含96.9%的观测值,但是尾部的异常值比分布的其余部分大几个数量级。问题是我已经研究了所有这些异常值,它们不是坏数据。此外,从完全排除这些数据点的经验来看,我的分析将以可预测的方式显着地偏离我的分析。任何人都可以提出可以帮助解决这种情况的标准化或标准化过程的建议。我已经尝试过使用sklearn的StandardScaler()和RobustScaler()之类的现成的缩放器,并且尝试将分布最小移动为1,这样我就可以获取分布的对数,但是这些方法都无法实现我的目标是将数据很好地传播到神经网络。

Original Series Descriptive Stats

Original Series Distribution Plot

Code to Zoom in

Descriptive Stats of Zoomed In

Distribution of Zoomed In

0 个答案:

没有答案