如何处理具有大量零值的高度偏斜数据

时间:2016-11-07 14:27:38

标签: r

我有一个如下数据集:

head(df)
##         Field.1 Complexity RQT.1 RQT.2 RQT.3 EQT.1 EQT.2 EQT.3 Outcome
## 1 Application 1          M    48    13     1  1594   945    50     832
## 2 Application 2          C     3     1     0     0     0     0       0
## 3 Application 3          C     1    31     2     0     0     0       0
## 4 Application 4          C     0     1     0     0     0     0       0
## 5 Application 5          M    11     5     0     0     0     0       0
## 6 Application 6          C     3     0     0     1     0     0      18

现在让我们检查数字var的偏斜:

library(e1071)
sapply(df.num,skewness)

RQT.1     RQT.2     RQT.3     EQT.1     EQT.2     EQT.3   Outcome 
5.228004  4.109652  6.842860  9.571051  7.520120 11.363172  9.922396 

正如我们所看到的那样,变量是高度正确的...也因为我们也有许多零值作为观察......在这种情况下,Log变换不起作用.....

如何将这些数值变量转换为近似正态变量,以便我可以应用回归技术,然后对outcome变量进行预测作为因变量??

0 个答案:

没有答案