转换极度偏斜的数据以进行回归分析

时间:2018-03-11 18:26:56

标签: python pandas normal-distribution

我有一个来自住房数据集的熊猫系列(系列的大小= 48,2491),名为“exempt_land”。本系列的前10个条目是:

0         0.0
2     17227.0
3         0.0
7         0.0
10        0.0
14     7334.0
15        0.0
16        0.0
18        0.0
19     8238.0
Name: exempt_land, dtype: float64

由于数据量非常大,我没有执行 dummy_variable 转换。

现在,我的目标是进行回归分析。因此,我想将此数据转换为正常

原始数据的偏斜 344.58 Kurtosis = 168317.32 。为了更好地理解原始数据,我还包括原始数据的分布图概率图

Distribution Plot BEFORE transformation

Probability Plot BEFORE transformation

执行 Log 转换后,我得到偏斜 5.21 Kurtosis = 25.96 < / strong>即可。转换后的分布概率图现在如下所示:

Distribution Plot AFTER np.log10(exempt_land + 1) transformation

Probability Plot AFTER np.log10(exempt_land + 1) transformation

我还进行了各种其他转换(“权力”,“exp”,“box-cox”,“互惠”),我得到了类似的不良结果(在互惠变换的情况下,结果非常糟糕)。

所以我的问题是,在进行回归分析时,我怎样才能“驯服”这些数据以表现得很好。此外,在转型时, 5.21 偏斜仍然很高,这会产生任何问题吗? 我可以执行哪些其他转换以使数据看起来更强正常

我希望我的问题在这里很明确。非常感谢社区的任何帮助。非常感谢你。

1 个答案:

答案 0 :(得分:0)

使用所有零,您需要使用非正态分布。 Tobit的各种可能在这里有意义。 (您无法转换离散数据并获得较少的离散数据。)