应用错误收集

Apache PIG问题

时间：2011-07-04 02:57:44

标签： memory mapreduce apache-pig

关于运行pig script / map-reduce作业我几乎没有问题。

我知道在真正开始执行map / reduce作业之前，pig会创建逻辑，物理和执行计划;我可以使用 explain＆lt; alias_name＆gt; 命令查看逻辑/物理计划;但是我如何查看执行计划（我想列出不同的map / reduce任务计划）？在猪执行过程中，我看到创建了许多工作（map / reduce pair）。想要了解这些工作的解决方法。
是否有任何明确的指南可以用来理解所创建的计划，因为什么是口水难以理解。
我可以通过更改输入文件块的数量来更改地图作业的数量。我是否也可以控制减少工作的数量？如何设置减速器的数量？
mapper / reducer节点中的默认堆内存大小是多少？哪些工作参数反映了这些？我能通过 -Xmx 1024m 选项更改堆内存吗？当我以这种方式设置堆内存时，我的作业曾经失败 - 可能会对可以提供的值有一些限制吗？

非常感谢！

2 个答案:

答案 0 :(得分：2)

解释生成了不同类型的计划。提供目录路径而不是文件来从'explain'获取所有3个计划。
不知道。
set default_parallel 10会将减少作业的数量设置为10。
必须在你的hadoop设置中。

答案 1 :(得分：2)

“解释（猪命令）”ALIAS-NAME解释实际计划（就地图减少工作而言）
别名将在MR作业中组合在一起。在计划阶段本身可以看到，所有别名都被分组到一个给定的MR
要控制减速器的数量，可以在编写连接时使用“USING PARALLEL desired_no”，在编写连接时使用groupby或“set default_parallel desired no”。
这取决于一只正在运行的猪的位置。如果它的MRv1：设置mapred.java.opts -Xmx 在mrv2中：设置mapred.map.size，设置mapred.map.java.opts -Xmx