我有一个如下数据集:
head(df)
## Field.1 Complexity RQT.1 RQT.2 RQT.3 EQT.1 EQT.2 EQT.3 Outcome
## 1 Application 1 M 48 13 1 1594 945 50 832
## 2 Application 2 C 3 1 0 0 0 0 0
## 3 Application 3 C 1 31 2 0 0 0 0
## 4 Application 4 C 0 1 0 0 0 0 0
## 5 Application 5 M 11 5 0 0 0 0 0
## 6 Application 6 C 3 0 0 1 0 0 18
现在让我们检查数字var的偏斜:
library(e1071)
sapply(df.num,skewness)
RQT.1 RQT.2 RQT.3 EQT.1 EQT.2 EQT.3 Outcome
5.228004 4.109652 6.842860 9.571051 7.520120 11.363172 9.922396
正如我们所看到的那样,变量是高度正确的...也因为我们也有许多零值作为观察......在这种情况下,Log变换不起作用.....
如何将这些数值变量转换为近似正态变量,以便我可以应用回归技术,然后对outcome
变量进行预测作为因变量??