我有一个来自住房数据集的熊猫系列(系列的大小= 48,2491),名为“exempt_land”。本系列的前10个条目是:
0 0.0
2 17227.0
3 0.0
7 0.0
10 0.0
14 7334.0
15 0.0
16 0.0
18 0.0
19 8238.0
Name: exempt_land, dtype: float64
由于数据量非常大,我没有执行 dummy_variable 转换。
现在,我的目标是进行回归分析。因此,我想将此数据转换为正常。
原始数据的偏斜 344.58 和 Kurtosis = 168317.32 。为了更好地理解原始数据,我还包括原始数据的分布图和概率图。
Distribution Plot BEFORE transformation
Probability Plot BEFORE transformation
执行 Log 转换后,我得到偏斜 5.21 和 Kurtosis = 25.96 < / strong>即可。转换后的分布和概率图现在如下所示:
Distribution Plot AFTER np.log10(exempt_land + 1) transformation
Probability Plot AFTER np.log10(exempt_land + 1) transformation
我还进行了各种其他转换(“权力”,“exp”,“box-cox”,“互惠”),我得到了类似的不良结果(在互惠变换的情况下,结果非常糟糕)。
所以我的问题是,在进行回归分析时,我怎样才能“驯服”这些数据以表现得很好。此外,在转型时, 5.21 的偏斜仍然很高,这会产生任何问题吗? 我可以执行哪些其他转换以使数据看起来更强正常?
我希望我的问题在这里很明确。非常感谢社区的任何帮助。非常感谢你。
答案 0 :(得分:0)
使用所有零,您需要使用非正态分布。 Tobit的各种可能在这里有意义。 (您无法转换离散数据并获得较少的离散数据。)