sc未在SparkContext中定义

时间:2018-02-13 07:35:04

标签: linux apache-spark machine-learning pyspark apache-spark-mllib

My Spark包是spark-2.2.0-bin-hadoop2.7。

我将火花变量导出为

export SPARK_HOME=/home/harry/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

我通过

打开了火花笔记本
pyspark

我可以从spark

加载包
from pyspark import SparkContext, SQLContext
from pyspark.ml.regression import LinearRegression
print(SQLContext)

输出

<class 'pyspark.sql.context.SQLContext'>

但我的错误是

print(sc)
"sc is undefined"

PLZ任何人都可以帮助我......!

1 个答案:

答案 0 :(得分:1)

pysparkShell 中,SparkContext已初始化为SparkContext(app=PySparkShell, master=local[*]),因此您只需使用getOrCreate()SparkContext设置为变量为

sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)

对于简单本地模式的编码目的,您可以执行以下操作

from pyspark import SparkConf, SparkContext, SQLContext

conf = SparkConf().setAppName("test").setMaster("local")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
print(sc)
print(sqlContext)