我已经配置了一个包含三个节点的Hadoop集群。所有节点都正常工作并连接。
我已经在HDFS中上传了28 GB文件并执行了Pig脚本来处理该文件。我正在执行脚本。它仅在单个节点中运行。
您能否给我建议并解释为什么它只在单个节点上运行?我在配置中遗漏了什么吗?
我使用的是Hadoop 2.2.0和Pig 0.12版本。
答案 0 :(得分:1)
您是否尝试在脚本中设置parallel
?您有三个节点,因此您可以尝试设置为parallel 3
。将它与以下任何运算符一起使用是有意义的:
语法示例:group x by y parallel 3;
您的文件格式是什么?确保它是可拆分的。
还要检查群集是否正常工作并正确设置。例如,检查任务跟踪器(分别是YARN中的NodeManager)是否失败,确保在所有节点上正确设置slaves
和master
个文件(slaves
列出所有从属节点, master
列出了主人。)