R函数无法在H2O数据集上正确评估

时间:2018-09-07 22:29:56

标签: r h2o

我正在尝试创建一个函数来线性样条化h2o数据集中的变量,但无法获取h2o来正确评估该函数。

这是我对中间花键的初步尝试:

df <- data.frame( AGE = sample(1:100, 1e6, replace = TRUE))
df_A.hex <- as.h2o( df, 'df_A.hex' )

simple_spline <- function( x, L, U ) min( max(x-L,0), U-L)
spline_vector <- Vectorize( simple_spline, vectorize.args = 'x', USE.NAMES = FALSE )

df_A.hex[, 'AGE_12_24'] <- spline_vector( df_A.hex[, 'AGE'], 12, 24) 

结果如下:

  AGE AGE_12_24
1   9        12
2   7        12
3  33        12
4  84        12
5  86        12
6  25        12

我尝试使用pminpmax,并假设可能不是对列进行矢量化处理,但是却遇到以下错误:

> simple_spline <- function( x, L, U ) pmin( pmax(x-L,0), U-L)
> df_A.hex[, 'AGE_12_24'] <- simple_spline( df_A.hex[, 'AGE'], 12, 24) 
Error in each[change] : invalid subscript type 'environment'

我猜是因为pminpmax不在h2o中实现了?

我也尝试使用Apply,但也遇到错误:

> simple_spline <- function( x, L, U ) min( max(x-L,0), U-L)
> df_A.hex[, 'AGE_12_24'] <- apply( df_A.hex[, 'AGE'], 1, simple_spline, 12, 24) 
> [1] "Lookup failed to find min"
Error in .process.stmnt(stmnt, formalz, envs) : 
  Don't know what to do with statement: min

我可以编写一个迭代地覆盖样条线列的函数,如下所示:

df_A.hex[, 'AGE_12_24'] <- df_A.hex[, 'AGE'] - 12
df_A.hex[, 'AGE_12_24'] <- h2o.ifelse( df_A.hex[, 'AGE_12_24'] < 0, 0, df_A.hex[, 'AGE_12_24'] )
df_A.hex[, 'AGE_12_24'] <- h2o.ifelse( df_A.hex[, 'AGE_12_24'] > 12, 12, df_A.hex[, 'AGE_12_24'] )

这使我获得了预期的结果:

  AGE AGE_12_24
1   9         0
2   7         0
3  33        12
4  84        12
5  86        12
6  25        12

但这是到达那里的相当难看的方法。我想知道我在做错什么,以及如何让函数将值传递给h2o框架。

1 个答案:

答案 0 :(得分:4)

很遗憾,您不能将其他参数传递给H2O R apply()方法(我已经报告了错误here)。

即使您对原始参数进行硬编码以获得apply方法来评估它,也无法正确评估:

library(h2o)
h2o.init()
df <- data.frame( AGE = c(9,7,33,84,86,25))
df_A.hex <- as.h2o( df, 'df_A.hex' )
L = 12
U = 24
simple_spline <- function(x) { min( max(x-L,0), U-L )}
apply(df_A.hex, 1, simple_spline)

 C1
1 -3
2 -5
3 21
4 72
5 74
6 13

我认为最好的选择是使用迭代方法,或者尝试应用apply方法(不传递其他参数),直到您可以信任看到的结果为止。