从PyCharm连接到正在运行的Spark-Session

时间:2019-03-19 17:03:24

标签: python apache-spark pyspark pycharm

我目前正在尝试设置我的Spark环境,并想知道什么是最佳实践。我想用Pycharm编写我的代码,然后从那里执行它。我如何从那里连接到已经在运行Spark-Session的本地计算机(在Mac上)?到目前为止,我的想法是在终端中启动pyspark-shell,如果我在Pycharm中运行代码,它应该连接到正在运行的Spark-Session。

该怎么做?

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以尝试使用以下方法在python内部创建一个spark shell:

import os, sys
os.environ['SPARK_HOME']="/home/spark-2.4.0-bin-hadoop2.7" #path to spark
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python') )
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python/lib/py4j-0.10.7-src.zip'))

import pyspark
spark = pyspark.sql.SparkSession.builder.appName("pysaprk_python").getOrCreate()

print (spark.version, spark.sparkContext.master)