Apache PIG问题

时间:2011-07-04 02:57:44

标签: memory mapreduce apache-pig

关于运行pig script / map-reduce作业我几乎没有问题。

  1. 我知道在真正开始执行map / reduce作业之前,pig会创建逻辑,物理和执行计划;我可以使用 explain< alias_name> 命令查看逻辑/物理计划;但是我如何查看执行计划(我想列出不同的map / reduce任务计划)?在猪执行过程中,我看到创建了许多工作(map / reduce pair)。想要了解这些工作的解决方法。

  2. 是否有任何明确的指南可以用来理解所创建的计划,因为什么是口水难以理解。

  3. 我可以通过更改输入文件块的数量来更改地图作业的数量。我是否也可以控制减少工作的数量?如何设置减速器的数量?

  4. mapper / reducer节点中的默认堆内存大小是多少?哪些工作参数反映了这些?我能通过 -Xmx 1024m 选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业曾经失败 - 可能会对可以提供的值有一些限制吗?

  5. 非常感谢!

2 个答案:

答案 0 :(得分:2)

  1. 解释生成了不同类型的计划。提供目录路径而不是文件来从'explain'获取所有3个计划。

  2. 不知道。

  3. set default_parallel 10会将减少作业的数量设置为10。

  4. 必须在你的hadoop设置中。

答案 1 :(得分:2)

  1. “解释(猪命令)”ALIAS-NAME解释实际计划(就地图减少工作而言)

  2. 别名将在MR作业中组合在一起。在计划阶段本身可以看到,所有别名都被分组到一个给定的MR

  3. 要控制减速器的数量,可以在编写连接时使用“USING PARALLEL desired_no”,在编写连接时使用groupby或“set default_parallel desired no”。

  4. 这取决于一只正在运行的猪的位置。 如果它的MRv1:设置mapred.java.opts -Xmx 在mrv2中:设置mapred.map.size,设置mapred.map.java.opts -Xmx