将Apache Zeppelin与现有Spark Cluster一起使用

时间:2015-12-16 13:30:24

标签: apache-spark spark-streaming hadoop2 apache-zeppelin

我想安装Zeppelin以使用我现有的Spark群集。我使用以下方式:

  • Spark Master(Spark 1.5.0 for Hadoop 2.4):
    • Zeppelin 0.5.5
  • Spark Slave

我将Zeppelin v0.5.5下载并通过以下方式安装:

mvn clean package -Pspark-1.5 -Dspark.version=1.5.0 -Dhadoop.version=2.4.0 -Phadoop-2.4 -DskipTests

我看到,本地[*] 主设置也可以在没有我的Spark Cluster的情况下工作(笔记本在关闭Spark群集时也可以运行)。

我的问题:当我想将Spark Cluster用于Streaming应用程序时,它似乎无法正常工作。当我使用 spark:// my_server:7077 作为主人时,我的SQL表是空的 - 在本地模式下一切正常!

另请参阅描述问题的另一个问题:Apache Zeppelin & Spark Streaming: Twitter Example only works local

我有什么不对吗

  • 通过“mvn clean packge”进行安装?
  • 关于设置主网址?
  • Spark和/或Hadoop版本(任何限制???)
  • 我是否必须在zeppelin-env.sh文件中设置一些特殊内容(实际上是恢复默认值)???

1 个答案:

答案 0 :(得分:1)

问题是由于缺少库依赖性造成的!因此,在搜索太长时间之前,首先检查依赖关系,是否缺少一个!

%dep
z.reset
z.load("org.apache.spark:spark-streaming-twitter_2.10:1.5.1")