Question

首先我描述我的场景。 Ubuntu 14.04 Spark 1.6.3 Python 3.5

我正试图通过spark-submit执行我的python脚本。我需要创建一个上下文，然后也应用SQLContext。

主要是我在我的pyspark控制台测试了一个非常简单的案例：

然后我正在创建我的python脚本。

from pyspark import SparkConf, SparkContext

conf = (SparkConf()
         .setMaster("local")
         .setAppName("My app")
         .set("spark.executor.memory", "1g"))
sc = SparkContext(conf = conf)

numbers = [1,2,3,4,5,6]

numbersRDD = sc.parallelize(numbers)
numbersRDD.take(2)

但是，当我在提交火花中运行它时，它不会通过。我从未得到结果：（

Answer 1

你没有理由得到任何＆＃34;结果＆＃34;。您的脚本不会执行任何明显的副作用（打印到stdout，写入文件），而不是标准的Spark记录（在输出中可见）。 numbersRDD.take(2)执行得很好。

如果您想获得某种形式的输出print：

print(numbersRDD.take(2))

您还应在退出前停止上下文：

sc.stop()

运行spark-submit打开SparkContext的问题

1 个答案: