如何配置Pivotal Hadoop

时间:2014-10-21 08:50:15

标签: hadoop hadoop-streaming greenplum hawq

我们正在开发一个安装了HAWQ的Greenplum。我想运行一个hadoop-streaming工作。但是,似乎没有配置或启动hadoop。我怎样才能启动mapred以确保我可以使用hadoop-streaming?

3 个答案:

答案 0 :(得分:0)

尝试使用以下命令获取字数:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input <inputDir> \
-output <outputDir> \
-mapper /bin/cat \
-reducer /bin/wc

如果这样可以为您提供正确的字数,那么其工作的其他人会通过运行此命令来检查发出的错误

答案 1 :(得分:0)

首先,确保群集已启动并正在运行。要进入Pivotal Command Center(通常链接如下:https://<admin_node>:5443/)并查看群集状态或请求管理员这样做。

接下来,确保在您尝试启动作业的计算机上安装了PHD客户端库。运行&#34; rpm -qa | grep phd&#34;

接下来,如果群集正在运行并且安装了库,则可以像下面这样运行流式传输作业:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout
HDFS上应该存在

/example.txt文件

答案 2 :(得分:-1)

我很久以前就这么做了,Greenplum / Pivotal Hadoop

- 1。对于Instatllation icm_client部署 恩。 - icm_client部署HIVE

- 2。对于状态 HDFS 服务hadoop-namenode状态 服务hadoop-datanode状态 服务hadoop-secondarynamenode状态 MapRed 服务hadoop-jobtracker状态 服务hadoop-tasktracker状态 蜂巢 服务蜂巢服务器状态 服务hive-Metoreore状态

- 3。用于启动/停止/重启 服务hive-server启动 服务蜂巢服务器停止 service hive-server restart

注意:您可以在安装指南中找到所有这些命令和详细信息,可以在某处获得hadoop安装指南

谢谢,