看h2o文档,
在H2O内部,一个分布式键/值存储用于在所有节点和机器之间访问和引用数据,模型,对象等。该算法在H2O的分布式Map / Reduce框架之上实现,并利用Java Fork / Join框架进行多线程处理。数据是并行读取的,并在整个群集中分布...
看h2o downloads page,我发现有一个独立的h2o版本。想知道这些版本之间的区别是什么?例如。我假设h2o算法旨在使用MapReduce算法,所以即使使用单个主机具有与分配为YARN应用程序相同的内存,使用独立模式时,在H2OFrame objs上进行ML训练的速度也会变慢吗?
答案 0 :(得分:1)
主要区别在于作业的启动方式以及它们是否可以方便地访问HDFS。
如果您给每个节点提供相同数量的节点和内存/ cpu,则模型训练行为不会有差异。