sparkSession.sparkContext为null,带有本地spark簇

时间:2017-09-06 02:53:16

标签: scala apache-spark elasticsearch rdd

我已经创建了一个本地Spark群集和一个Spark会话,如下所示

val sparkConf = new SparkConf(true).setAppName("test").setMaster("local[8]")

val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

使用它我还成功创建了在我的测试scala应用程序

中使用的虚拟数据帧
val dummy: DataFrame = sparkSession.createDataFrame(Seq(
  ("BABY", "videos", "0.5"),
  ("APPLIANCES AND STORAGE", "audios", "0.6")
).toDF("dept", "type", "weight")

后来我创建了一个对象Item,我正在尝试将其写入Elastic Search,如下所示

val elasticItemRDD = sparkSession.sparkContext.makeRDD(Seq(Item))
    EsSpark.saveToEs(elasticItemRDD, esIndexNType, Map("es.mapping.id" -> "itemid"))

从sparkSession访问sparkContext时,这给了我一个空指针异常。我试过了

sparkSession.createDataset(Seq(Item)).rdd 

这不会给我这个空指针错误但是其他一些MatchError。我喜欢让我的sparkContext.makeRDD工作,所以我可以写ElasticSearch。这个NullPointerException可能是什么原因?我错过了什么吗?

scalaVersion := "2.11.8"
val sparkVersion = "2.2.0"
libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion % "provided",
  "org.apache.spark" %% "spark-sql" % sparkVersion % "provided",
  "org.apache.spark" % "spark-hive_2.11" % sparkVersion,
  "org.elasticsearch" % "elasticsearch-spark-20_2.11" % "5.5.1"
)

1 个答案:

答案 0 :(得分:3)

问题是我的map函数闭包中没有SparkContext。它仅适用于驱动程序功能,不适用于工作任务。

Spark job is failed due to java.io.NotSerializableException: org.apache.spark.SparkContext