我是初学程序员和hadoop学习者。
我正在使用5台PC测试hadoop完全分配模式(具有双核cpu和ram 2G) 在启动maptask和hdfs之前,我知道我必须配置文件(Ip上的etc / hosts,hostname和hadoop文件夹/ conf / masters,slave文件),所以我完成了配置该文件。 然后,
我有一个问题
运行应用程序(如WordCount或Pi Estimator)时是否可以增加(或添加)map(而不是mapTask或node!)?
例如,我正在使用10个地图运行Pi Estimator应用程序,迭代100,000,000。
在去运行应用程序的路上,我觉得它很慢,所以我想增加地图,即使hadoop状态正在运行。可能吗?如果是真的,请告诉我。
或者在运行应用程序之前,我是否可以配置配置文件(如hdfs-site.xml或mapred-site.xml)以在运行应用程序时动态增加地图?
堆栈溢出社区的hadoop主用户,请告诉我有关真相的详细信息。答案 0 :(得分:0)
你可以设置mapred.map.tasks并给作业一个关于你想要多少个地图的提示,但它只有一个提示和hadoop不一定会遵守它。您可以通过设置mapred.tasktracker.reduce.tasks.maximum,
来设置一次运行的最大并发映射任务数