目前,我正在使用h2o.ai
和SparkMLlib
对机器学习库进行调查。我已经确定h2o.ai
库支持更多数量的ML算法与SparkMLlib
相比,并且将Spark数据帧划分为训练和测试集似乎很困难(需要转换火花数据帧)到R / h2o数据帧,这也是时间/资源消耗)。
使用h2o.ai
库优于SparkMLib
或反之亦然的其他优缺点是什么?我正在关注h2o.ai
和SparkMLlib
到基于R的实现(SparkR)。因此,h2o (as.h2o)
和SparkMLlib (as.DataFrame)
的数据帧不同。
答案 0 :(得分:4)