我在多节点集群上运行kmeans。输入大小约为100mb,我修改了bin / mahout文件,如下所示
MAHOUT_OPTS =“$ MAHOUT_OPTS -Dmapred.min.split.size = 10MB”
MAHOUT_OPTS =“$ MAHOUT_OPTS -Dmapred.map.tasks = 10”
在每次迭代中我得到
12/09/12 17:05:02 INFO mapred.JobClient:推出地图任务= 1
12/09/12 17:05:02 INFO mapred.JobClient:推出减少任务= 6
12/09/12 17:05:02 INFO mapred.JobClient:数据本地地图任务= 1
这是否意味着它在单个节点而不是多节点上运行?如果是这样,我在配置中会错过什么?
答案 0 :(得分:3)
如果您想要更多分割,当然您想要设置最大分割大小而不是分钟。它仍然只是群集的建议。