用Spark执行python脚本

时间:2020-08-03 21:07:41

标签: python apache-spark pyspark jupyter-notebook

我想将python测试传递到jupyter笔记本中的SparkContext中,并在笔记本中显示输出。为了测试,我只是像这样执行我的jupyter笔记本:

sparkConf = SparkConf()
sc = SparkContext(conf=sparkConf)

sc.addPyFile('test.py')

test.py看起来像

rdd = sc.parallelize(range(100000000))
print(rdd.sum())

但是当我在笔记本中执行sc.addPyFile行时,看不到输出。我是否将pyspark脚本错误地传递到我的SparkContext中?

1 个答案:

答案 0 :(得分:1)

您使用的函数不用于触发作业,而是将python模块传递给sparkContext,以便可以根据需要将其导入脚本中。

请参阅此处: https://spark.apache.org/docs/0.7.3/api/pyspark/pyspark.context.SparkContext-class.html#addPyFile

要触发作业,您需要运行 spark-submit test.py在Jupyter笔记本之外。