在Python代码中获取Azure数据砖Spark实例

时间:2019-03-22 19:49:23

标签: apache-spark azure-databricks

我正在开发一个python软件包,该软件包将部署到databricks集群中。我们经常需要在python代码中引用“ spark”和“ dbutils”对象。

我们可以使用“ spark”(例如spark.sql())在Notebook中轻松访问这些对象。如何在包中的python代码中获取spark实例?

1 个答案:

答案 0 :(得分:1)

SparkSession.Builder.getOrCreate

  

获取现有的SparkSession ,或者,如果不存在现有的SparkSession,则根据此构建器中设置的选项创建一个新的SparkSession。

     

此方法首先检查是否存在有效的全局默认SparkSession,如果是,则返回该默认值。如果不存在有效的全局默认SparkSession,则该方法将创建一个新的SparkSession并将新创建的SparkSession分配为全局默认值

因此,每当您需要SparkSession的实例且不想将其作为参数传递时:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()