关于运行pig script / map-reduce作业我几乎没有问题。
我知道在真正开始执行map / reduce作业之前,pig会创建逻辑,物理和执行计划;我可以使用 explain< alias_name> 命令查看逻辑/物理计划;但是我如何查看执行计划(我想列出不同的map / reduce任务计划)?在猪执行过程中,我看到创建了许多工作(map / reduce pair)。想要了解这些工作的解决方法。
是否有任何明确的指南可以用来理解所创建的计划,因为什么是口水难以理解。
我可以通过更改输入文件块的数量来更改地图作业的数量。我是否也可以控制减少工作的数量?如何设置减速器的数量?
mapper / reducer节点中的默认堆内存大小是多少?哪些工作参数反映了这些?我能通过 -Xmx 1024m 选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业曾经失败 - 可能会对可以提供的值有一些限制吗?
非常感谢!
答案 0 :(得分:2)
解释生成了不同类型的计划。提供目录路径而不是文件来从'explain'获取所有3个计划。
不知道。
set default_parallel 10
会将减少作业的数量设置为10。
必须在你的hadoop设置中。
答案 1 :(得分:2)
“解释(猪命令)”ALIAS-NAME解释实际计划(就地图减少工作而言)
别名将在MR作业中组合在一起。在计划阶段本身可以看到,所有别名都被分组到一个给定的MR
要控制减速器的数量,可以在编写连接时使用“USING PARALLEL desired_no”,在编写连接时使用groupby或“set default_parallel desired no”。
这取决于一只正在运行的猪的位置。 如果它的MRv1:设置mapred.java.opts -Xmx 在mrv2中:设置mapred.map.size,设置mapred.map.java.opts -Xmx