我想将python测试传递到jupyter笔记本中的SparkContext中,并在笔记本中显示输出。为了测试,我只是像这样执行我的jupyter笔记本:
sparkConf = SparkConf()
sc = SparkContext(conf=sparkConf)
sc.addPyFile('test.py')
test.py看起来像
rdd = sc.parallelize(range(100000000))
print(rdd.sum())
但是当我在笔记本中执行sc.addPyFile
行时,看不到输出。我是否将pyspark脚本错误地传递到我的SparkContext中?
答案 0 :(得分:1)
您使用的函数不用于触发作业,而是将python模块传递给sparkContext,以便可以根据需要将其导入脚本中。
请参阅此处: https://spark.apache.org/docs/0.7.3/api/pyspark/pyspark.context.SparkContext-class.html#addPyFile
要触发作业,您需要运行
spark-submit test.py
在Jupyter笔记本之外。