我正在开发一个python软件包,该软件包将部署到databricks集群中。我们经常需要在python代码中引用“ spark”和“ dbutils”对象。
我们可以使用“ spark”(例如spark.sql())在Notebook中轻松访问这些对象。如何在包中的python代码中获取spark实例?
答案 0 :(得分:1)
SparkSession.Builder.getOrCreate
:
获取现有的SparkSession ,或者,如果不存在现有的SparkSession,则根据此构建器中设置的选项创建一个新的SparkSession。
此方法首先检查是否存在有效的全局默认SparkSession,如果是,则返回该默认值。如果不存在有效的全局默认SparkSession,则该方法将创建一个新的SparkSession并将新创建的SparkSession分配为全局默认值
因此,每当您需要SparkSession
的实例且不想将其作为参数传递时:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()