我是Apache Zeppelin 0.7.1的pyspark新用户,可以访问我的Spark群集。我配置了2台机器:
情况:
如果我使用Master(Machine-1)中的pyspark控制台,群集可以正常工作。
当我使用Spark的Local [*]配置时,它的所有内容都可以 飞艇。
在this zeppelin文档之后,我将spark:// Machine-1:7077放在spark解释器配置的 master 属性中。然后,一些代码在我的Zeppelin笔记本的单元格中运行正常:
%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")
但其他RDD trasnformations(例如)永远不会结束:
%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)
出了什么问题?一些忠告? 谢谢你。
答案 0 :(得分:0)
最终我意识到:
谢谢你,格雷格,感兴趣。