有人可以解释如何在远程计算机上为Hadoop设置开发环境。 大多数在线教程似乎都集中在本地模式或伪分布式模式,这涉及在本地或通过cygwin安装hadoop。我想避免这种情况。理想情况下,我想通过eclipse将代码推送到远程集群,而无需在本地计算机上使用hadoop。
我已经有了一个集群,可以通过Eclipse - Hadoop插件访问文件系统,但是如何将作业提交到远程集群?我应该更改eclipse插件中的哪些参数? (我正确设置了namenode,作业跟踪器位置,但高级配置显示了datanode目录,datanode位置和许多其他设置)。
由于
答案 0 :(得分:0)
如果原因是要远离Cygwin并使用本机工具,我的解决方案是创建一个虚拟机,桌面版本的centos6.6通过ambari安装HDP2.2作为单个节点实例和所有本机开发工具在桌面上。一旦我的代码被开发出来,我就有了一个部署脚本,可以将我的代码推送到集群中,该集群在CLI中执行。通常使用NAT或类似设备确保连接,因此可以在全屏模式下相对不受限制的工作计算机上使用。
拥有原生的centos VM意味着我编写的所有代码都是在与集群完全相同的OS和HDP版本上开发的。这也意味着当我在CLI上工作时,我不必处理服务器延迟(令人费解)。