我在我的jupyter笔记本中使用了pyspark 2.2.0 有时它发生在我使用sc的时候,例如这里
from pyspark.sql import SQLContext
from pyspark.sql.session import SparkSession
spark=SparkSession.builder.getOrCreate()
sparkContext=SQLContext(sc)
我收到错误
NameError:name' sc'未定义
但如果我通过添加
来修改我的代码from pyspark import SparkContext
sc =SparkContext()
我收到错误
ValueError:无法一次运行多个SparkContexts
我需要做什么?
答案 0 :(得分:3)
spark
是您想要的对象。不是sc
。
您收到错误的事实意味着您需要获取或创建您已经拥有的会话。
SparkSession.builder.getOrCreate()
我不确定你需要SQLContext
。 spark.sql()
或spark.read()
是数据集入口点。
SparkSession
现在是Spark的新入口点,取代了旧的SQLContext
和HiveContext
如果您需要sc
变量,那就是sc = spark.sparkContext