在多个节点中运行Pig脚本

时间:2014-01-16 13:40:47

标签: hadoop apache-pig

我已经配置了一个包含三个节点的Hadoop集群。所有节点都正常工作并连接。

我已经在HDFS中上传了28 GB文件并执行了Pig脚本来处理该文件。我正在执行脚本。它仅在单个节点中运行。

您能否给我建议并解释为什么它只在单个节点上运行?我在配置中遗漏了什么吗?

我使用的是Hadoop 2.2.0和Pig 0.12版本。

1 个答案:

答案 0 :(得分:1)

您是否尝试在脚本中设置parallel?您有三个节点,因此您可以尝试设置为parallel 3。将它与以下任何运算符一起使用是有意义的:

  • 协同组
  • 加入
  • limit
  • 顺序
  • 不同

语法示例:group x by y parallel 3;

您的文件格式是什么?确保它是可拆分的。

还要检查群集是否正常工作并正确设置。例如,检查任务跟踪器(分别是YARN中的NodeManager)是否失败,确保在所有节点上正确设置slavesmaster个文件(slaves列出所有从属节点, master列出了主人。)