在CDH 5.4中连接纱线簇上的火花

时间:2015-07-28 07:35:43

标签: hadoop apache-spark pyspark

我正在努力理解"概念"连接到远程服务器。我所拥有的是使用CDH5.4的CentOS上的4台服务器 我想要做的是在所有这四个节点上连接纱线上的火花。 我的问题是我不明白如何将HADOOP_CONF_DIR设置为指定的here。我应该为这个变量设置哪里和什么值?然后我是否需要在所有四个节点上设置此变量,否则只有主节点就足够了?

文档说明"确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(#34;)的(客户端)配置文件的目录。 在这里问之前我已经阅读了许多类似的问题。请让我知道如何解决这个问题。我可以在所有节点上以独立模式运行spark和pyspark。

感谢您的帮助。 阿希什

1 个答案:

答案 0 :(得分:0)

Where and what value should i set for this variable?

The variable HADOOP_CONF_DIR should point to the directory that contains yarn-site.xml. Usually you set it in ~/.bashrc. I found documentation for CDH. http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/ClusterSetup.html

Basically all nodes need to have configuration files pointed by the environment variable.

Once all the necessary configuration is complete, distribute the files to the HADOOP_CONF_DIR directory on all the machines