应用错误收集

时间：2014-01-16 13:40:47

标签： hadoop apache-pig

我已经配置了一个包含三个节点的Hadoop集群。所有节点都正常工作并连接。

我已经在HDFS中上传了28 GB文件并执行了Pig脚本来处理该文件。我正在执行脚本。它仅在单个节点中运行。

您能否给我建议并解释为什么它只在单个节点上运行？我在配置中遗漏了什么吗？

我使用的是Hadoop 2.2.0和Pig 0.12版本。

答案 0 :(得分：1)

您是否尝试在脚本中设置parallel？您有三个节点，因此您可以尝试设置为parallel 3。将它与以下任何运算符一起使用是有意义的：

语法示例：group x by y parallel 3;

您的文件格式是什么？确保它是可拆分的。

还要检查群集是否正常工作并正确设置。例如，检查任务跟踪器（分别是YARN中的NodeManager）是否失败，确保在所有节点上正确设置slaves和master个文件（slaves列出所有从属节点， master列出了主人。）