从机器学习算法的角度来看h2o.ai和SparkMLlib之间的区别

时间:2016-12-09 06:00:45

标签: r machine-learning sparkr h2o

目前,我正在使用h2o.aiSparkMLlib对机器学习库进行调查。我已经确定h2o.ai库支持更多数量的ML算法与SparkMLlib相比,并且将Spark数据帧划分为训练和测试集似乎很困难(需要转换火花数据帧)到R / h2o数据帧,这也是时间/资源消耗)。

使用h2o.ai库优于SparkMLib或反之亦然的其他优缺点是什么?我正在关注h2o.aiSparkMLlib到基于R的实现(SparkR)。因此,h2o (as.h2o)和SparkMLlib (as.DataFrame)的数据帧不同。