Question

我是Apache Zeppelin 0.7.1的pyspark新用户，可以访问我的Spark群集。我配置了2台机器：

情况：

在this zeppelin文档之后，我将spark：// Machine-1：7077放在spark解释器配置的 master 属性中。然后，一些代码在我的Zeppelin笔记本的单元格中运行正常：

%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")

但其他RDD trasnformations（例如）永远不会结束：

%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)

出了什么问题？一些忠告？谢谢你。

Answer 1

最终我意识到：

谢谢你，格雷格，感兴趣。