Question

我们正在开发一个安装了HAWQ的Greenplum。我想运行一个hadoop-streaming工作。但是，似乎没有配置或启动hadoop。我怎样才能启动mapred以确保我可以使用hadoop-streaming？

Answer 1

尝试使用以下命令获取字数：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input <inputDir> \
-output <outputDir> \
-mapper /bin/cat \
-reducer /bin/wc

如果这样可以为您提供正确的字数，那么其工作的其他人会通过运行此命令来检查发出的错误

Answer 2

首先，确保群集已启动并正在运行。要进入Pivotal Command Center（通常链接如下：https://<admin_node>:5443/）并查看群集状态或请求管理员这样做。

接下来，确保在您尝试启动作业的计算机上安装了PHD客户端库。运行＆＃34; rpm -qa | grep phd＆＃34;

接下来，如果群集正在运行并且安装了库，则可以像下面这样运行流式传输作业：

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout

HDFS上应该存在

/example.txt文件

Answer 3

我很久以前就这么做了，Greenplum / Pivotal Hadoop

- 1。对于Instatllation icm_client部署恩。 - icm_client部署HIVE

- 2。对于状态 HDFS 服务hadoop-namenode状态服务hadoop-datanode状态服务hadoop-secondarynamenode状态 MapRed 服务hadoop-jobtracker状态服务hadoop-tasktracker状态蜂巢服务蜂巢服务器状态服务hive-Metoreore状态

- 3。用于启动/停止/重启服务hive-server启动服务蜂巢服务器停止 service hive-server restart

注意：您可以在安装指南中找到所有这些命令和详细信息，可以在某处获得hadoop安装指南

谢谢，

如何配置Pivotal Hadoop

3 个答案: