作为机器学习管道的一部分,我一直在探索用于变量转换的新recipes
包。我选择了这种方法 - 由于所有新的扩展而使用caret
的{{1}}功能进行升级。但我发现这些包为转换后的数据提供了截然不同的结果:
preProcess
所以看起来在某些专栏中他们确实同意,但其他人则不同。为什么这些转变可能会如此不同?其他人一直在发现类似的差异吗?
答案 0 :(得分:3)
差异是由于lambdas
函数中的preProcess
四舍五入到小数点后一位。
检查此示例:
library(caret)
library(recipes)
library(MASS)
library(mlbench)
data(Sonar)
df <- Sonar[,-61]
使用preProcess
函数并将fudge
设置为0(对0/1强制lambdas没有容忍度)。
z2 <- preProcess(x = as.data.frame(df), method = c('BoxCox'), fudge = 0)
并使用recepies
:
z <- recipe(~ ., data = as.data.frame(df )) %>%
step_BoxCox(., everything()) %>%
prep(., training = as.data.frame(df))
让我们检查一下recepies
:
z$steps[[1]]$lambdas
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.09296796 0.23383117 0.19487939 0.11471259 0.18688851 0.35852835 0.48787887 0.36830343 0.26340880 0.29810673 0.33913896 0.50361765
V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24
0.49178396 0.35997958 0.43900093 0.28981749 0.22843441 0.27016373 0.50573719 0.83436868 1.02366629 1.15194335 1.35062142 1.44484148
V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36
1.51851127 1.61365888 1.47445453 1.44448827 1.22132457 1.00145613 0.66343491 0.61951328 0.53028496 0.45278118 0.39019507 0.37536033
V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57
0.28428050 0.23439217 0.29554367 0.47263000 0.34455069 0.44036919 0.15240917 0.30314637 0.28647186 0.16202628 0.27153385 0.17005357
V58 V59 V60
0.15688906 0.28761156 0.06652761
和preProcess
的lambdas:
sapply(z2$bc, function(x) x$lambda)
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34
0.1 0.2 0.2 0.1 0.2 0.4 0.5 0.4 0.3 0.3 0.3 0.5 0.5 0.4 0.4 0.3 0.2 0.3 0.5 0.8 1.0 1.2 1.4 1.4 1.5 1.6 1.5 1.4 1.2 1.0 0.7 0.6 0.5 0.5
V35 V36 V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57 V58 V59 V60
0.4 0.4 0.3 0.2 0.3 0.5 0.3 0.4 0.2 0.3 0.3 0.2 0.3 0.2 0.2 0.3 0.1
所以:
df$V1^z$steps[[1]]$lambdas[1]
不等于
df$V1^sapply(z2$bc, function(x) x$lambda)[1]
默认fudge = 0.2
,差异会更高,因为-0.2 - 02
将更改为0
,即log
转换,而0.8 - 1.2
lambdas将更改为{ {1}} - 没有转变。
我不会关注这些差异,这两种功能都会减少数据的偏差。只是不要将它们混合在同一个训练渠道中。
为了获得更加无偏的性能估计,这些转换应该在重新采样期间执行,而不是在它之前执行,以避免数据泄漏。