运行spark-submit打开SparkContext的问题

时间:2018-01-10 03:24:03

标签: python apache-spark pyspark pyspark-sql

首先我描述我的场景。 Ubuntu 14.04 Spark 1.6.3 Python 3.5

我正试图通过spark-submit执行我的python脚本。我需要创建一个上下文,然后也应用SQLContext。

主要是我在我的pyspark控制台测试了一个非常简单的案例:

enter image description here

然后我正在创建我的python脚本。

from pyspark import SparkConf, SparkContext

conf = (SparkConf()
         .setMaster("local")
         .setAppName("My app")
         .set("spark.executor.memory", "1g"))
sc = SparkContext(conf = conf)

numbers = [1,2,3,4,5,6]

numbersRDD = sc.parallelize(numbers)
numbersRDD.take(2)

但是,当我在提交火花中运行它时,它不会通过。我从未得到结果:(

enter image description here

1 个答案:

答案 0 :(得分:0)

你没有理由得到任何"结果"。您的脚本不会执行任何明显的副作用(打印到stdout,写入文件),而不是标准的Spark记录(在输出中可见)。 numbersRDD.take(2)执行得很好。

如果您想获得某种形式的输出print

print(numbersRDD.take(2))

您还应在退出前停止上下文:

sc.stop()