我知道Sparkling Water是在Spark环境中执行的H20,所以它可以使用Spark Engine(以及所有Spark分布式结构)来分配计算,但是从性能来看,H2O已经是一个好处用于机器学习的分布式和可扩展库?
而且,H2O的独立版本真的能够在一组计算机上管理分布式处理吗?
答案 0 :(得分:2)
使用Sparkling Water而非常规H2O的主要好处是它可以很好地适应现有的Spark管道。如果您还没有使用Spark,那么最好只使用常规的H2O库。 H2O已经分布,因此在方程式中添加Spark并不能在分布式计算方面提供任何额外的价值。
H2O与Spark有很多相同的组件,例如分布式数据帧和共享的内存计算。所以,是的,H2O能够管理多核或多节点计算机集群上的分布式处理。这正是它的目的。