如何使用Cloudera Quickstart Docker容器执行MapReduce Job / JAR

时间:2016-12-29 13:30:37

标签: hadoop cloudera-cdh cloudera-manager cloudera-quickstart-vm

我需要一些关于如何使用Cloudera Docker Container运行MapReduce程序/作业的帮助 我正在使用Linux(ElementaryOS)高配置。笔记本电脑(24GB RAM,i7处理器) 我能够安装Cloudera docker图像,运行它并且还做了以下没有问题:
1.看到#prompt并运行HDFS命令(hadoop fs -ls)虽然它没有返回任何内容。
2.能够访问Hue编辑器 3.能够运行Cloudera经理并启动所有服务(Everything) 4.在我的本地环境中,我能够创建一个WordCount MapReduce程序(jar),下载该程序的所有Maven依赖项(不在docker容器内)。
现在我的问题是:
如何将这个WordCount JAR提交给运行Docker Container?
如何使用上传的文本文件(HDFS)运行此MapReduce程序/作业(WordCount)?

1 个答案:

答案 0 :(得分:1)

如果您使用8888端口的端口映射启动容器,则可以访问包含文件浏览器的Hue。因此,您将能够轻松地将HDFS文件放入群集中。

要启动map / reduce作业,您需要在容器内复制jar,因为Cloudera没有在其容器中提供任何卷(至少,这里没有记录:http://www.cloudera.com/documentation/enterprise/latest/topics/quickstart_docker_container.html)它可以是具有挑战性的。也许你可以尝试通过scp添加它。

我自己创建了一些cloudera容器,我按节点类型(masternode,datanode,edgenode)提供了一个容器,我只是在edgenode中添加一个卷,因为它似乎是一个很好的想法。您可以在docker hub中找到我的容器:https://hub.docker.com/r/loicmathieu/cloudera-cdh-edgenode/