我想从Windows机器远程运行hadoop作业。群集正在Ubuntu上运行。
基本上,我想做两件事:
我不知道如何实现这一目标。我正在使用hadoop版本1.1.2
我尝试在作业配置中传递jobtracker / namenode URL,但它失败了。
我尝试过以下示例:Running java hadoop job on local/remote cluster
结果:一致地获取错误,因为无法加载目录。它类似于这篇文章: Exception while submitting a mapreduce job from remote system
答案 0 :(得分:3)
欢迎来到痛苦的世界。我刚刚实现了这个确切的用例,但是使用了Hadoop 2.2(当前的稳定版本)从源代码修补和编译。
简而言之,我所做的是:
sudo ldconfig
,请参阅this post。hadoop-2.2.0-src/hadoop-dist/target
部署生成的dist tar并进行配置。我无法帮助您,因为您需要将其调整为您的群集拓扑。c:\java\jdk1.7
。JAVA_HOME
,HADOOP_HOME
和PATH
个环境变量
unix2dos
(来自Cygwin或独立版)转换.cmd
和bin
目录中的所有etc\hadoop
文件,否则会出现奇怪的错误关于运行它们时的标签。fs.default.name
,mapreduce.jobtracker.address
,yarn.resourcemanager.hostname
等。如果您已完成所有这些操作,则可以启动Linux Hadoop群集并从Windows命令提示符连接到该群集。快乐!