Question

我拥有带有Spark 1.4.1的Amazon EMR Hadoop v2.6群集，以及Yarn资源管理器。我想在单独的机器上部署Zeppelin，以便在没有作业运行时关闭EMR集群。

我尝试按照此处的说明https://zeppelin.incubator.apache.org/docs/install/yarn_install.html 没有太大的成功。

有人可以揭开Zeppelin如何从不同的机器连接到现有Yarn集群的神秘面纱吗？

Answer 1

[1]用适当的参数安装Zeppelin：

git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin;
cd ~/zeppelin;
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests

[2]更新EMR_MASTER EC2安全组接受来自所有端口的传入请求，与Zeppelin通信（应该是特定端口，还不知道哪个）

[3]将目录EMR_MASTER：/ etc / hadoop / conf复制到MY_STANDALONE_SERVER：/ home / zeppelin / hadoop-conf。

[4] zeppelin / conf / zeppelin-env.sh应包含：

export MASTER=yarn-client
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf

注意：spark.executor.instances等Spark参数取自Interpreter设置，在那里指定。

如何设置Zeppelin以使用远程EMR纱线群集

1 个答案: