Question

我想将python测试传递到jupyter笔记本中的SparkContext中，并在笔记本中显示输出。为了测试，我只是像这样执行我的jupyter笔记本：

sparkConf = SparkConf()
sc = SparkContext(conf=sparkConf)

sc.addPyFile('test.py')

test.py看起来像

rdd = sc.parallelize(range(100000000))
print(rdd.sum())

但是当我在笔记本中执行sc.addPyFile行时，看不到输出。我是否将pyspark脚本错误地传递到我的SparkContext中？

Answer 1

您使用的函数不用于触发作业，而是将python模块传递给sparkContext，以便可以根据需要将其导入脚本中。

要触发作业，您需要运行 spark-submit test.py在Jupyter笔记本之外。