Apache zeppelin:Spark集群配置

时间:2017-05-02 12:03:23

标签: pyspark apache-zeppelin

我是Apache Zeppelin 0.7.1的pyspark新用户,可以访问我的Spark群集。我配置了2台机器:

  • Machine-1 :Spark Master + 2名员工+ Apache Zeppelin
  • Machine-2 :2名工人

情况:

  • 如果我使用Master(Machine-1)中的pyspark控制台,群集可以正常工作。

  • 当我使用Spark的Local [*]配置时,它的所有内容都可以 飞艇。

this zeppelin文档之后,我将spark:// Machine-1:7077放在spark解释器配置的 master 属性中。然后,一些代码在我的Zeppelin笔记本的单元格中运行正常:

%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")

但其他RDD trasnformations(例如)永远不会结束:

%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)

出了什么问题?一些忠告? 谢谢你。

1 个答案:

答案 0 :(得分:0)

最终我意识到:

  1. 工人的内存和核心参数不适合我的 簇。我更改了spark-env.sh文件中的值和它 工作!
  2. Apache Zeppelin中的配置参数也有一些 错误(需要儿子额外的火花模块)
  3. 谢谢你,格雷格,感兴趣。