我们正在开发一个安装了HAWQ的Greenplum。我想运行一个hadoop-streaming工作。但是,似乎没有配置或启动hadoop。我怎样才能启动mapred以确保我可以使用hadoop-streaming?
答案 0 :(得分:0)
尝试使用以下命令获取字数:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input <inputDir> \
-output <outputDir> \
-mapper /bin/cat \
-reducer /bin/wc
如果这样可以为您提供正确的字数,那么其工作的其他人会通过运行此命令来检查发出的错误
答案 1 :(得分:0)
首先,确保群集已启动并正在运行。要进入Pivotal Command Center(通常链接如下:https://<admin_node>:5443/
)并查看群集状态或请求管理员这样做。
接下来,确保在您尝试启动作业的计算机上安装了PHD客户端库。运行&#34; rpm -qa | grep phd&#34;
接下来,如果群集正在运行并且安装了库,则可以像下面这样运行流式传输作业:
hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout
HDFS上应该存在/example.txt文件
答案 2 :(得分:-1)
我很久以前就这么做了,Greenplum / Pivotal Hadoop
- 1。对于Instatllation icm_client部署 恩。 - icm_client部署HIVE
- 2。对于状态 HDFS 服务hadoop-namenode状态 服务hadoop-datanode状态 服务hadoop-secondarynamenode状态 MapRed 服务hadoop-jobtracker状态 服务hadoop-tasktracker状态 蜂巢 服务蜂巢服务器状态 服务hive-Metoreore状态
- 3。用于启动/停止/重启 服务hive-server启动 服务蜂巢服务器停止 service hive-server restart
注意:您可以在安装指南中找到所有这些命令和详细信息,可以在某处获得hadoop安装指南
谢谢,