我在官方教程中看到的是使用as_h2o_frame
中的函数rsparkling
将Spark
数据帧转换为h2o
数据帧。然后照常使用h2o
数据框。我想知道是否有一种方法可以将h2o
中的h2o.randomforest
算法(例如pipeline
)与Spark
中的pipeline <- ml_pipeline(sc) %>% ft_dplyr_transformer(tbl = dplyr_transformation) %>% h2o.randomForest(...)
fitted_pipeline <- ml_fit(pipeline,data)
cleaned_data <- ml_transform(fitted_pipeline,data)
集成在一起,以便我可以执行以下操作:
[batch_size, time_steps, 3]