使用弹性搜索时的NullPointerException 5.5使用Spark Streaming的Bulk Ingest API

时间:2018-02-14 07:00:21

标签: scala apache-spark elasticsearch apache-kafka

获取NullPointerException:

java.lang.NullPointerException
    at org.elasticsearch.action.bulk.BulkRequest.validate(BulkRequest.java:604)
    at org.elasticsearch.action.TransportActionNodeProxy.execute(TransportActionNodeProxy.java:46)
    at org.elasticsearch.client.transport.TransportProxyClient.lambda$execute$0(TransportProxyClient.java:59)
    at org.elasticsearch.client.transport.TransportClientNodesService.execute(TransportClientNodesService.java:250)
    at org.elasticsearch.client.transport.TransportProxyClient.execute(TransportProxyClient.java:59)
    at org.elasticsearch.client.transport.TransportClient.doExecute(TransportClient.java:363)
    at org.elasticsearch.client.support.AbstractClient.execute(AbstractClient.java:408)
    at org.elasticsearch.action.ActionRequestBuilder.execute(ActionRequestBuilder.java:80)
    at org.elasticsearch.action.ActionRequestBuilder.execute(ActionRequestBuilder.java:54)

我有一个场景,其中多个并发任务在Spark Streaming Application中的4个执行程序中运行,并且每个任务都从Kafka读取数据,准备批量并摄取ES索引中的批记录。我第一次得到了一些奇怪的NullPointerException和一些批记录,但是在第二次运行中它们被成功处理。

有人可以告诉你为什么会这样。

2 个答案:

答案 0 :(得分:1)

这是我使用第一行的代码片段是来自build.sbt文件的依赖

//lib dependency in build.sbt
"org.elasticsearch" %% "elasticsearch-spark-20" % "5.6.5"

//below is the connection variables required by Spark

val resources: String =
  s"${appConf.getString("es-index")}/${appConf.getString("es.type")}"
val esConfig: Map[String, String] = Map(
  "es.index.auto.create" -> s"${appConf.getString("es.index.auto.create")}",
  "es.nodes" -> s"${appConf.getString("es-nodes")}",
  "es.port" -> s"${appConf.getInt("es.port")}",
  "es.nodes.wan.only" -> s"${appConf.getString("es.nodes.wan.only")}",
  "es.net.ssl" -> s"${appConf.getString("es.net.ssl")}"
)

import org.elasticsearch.spark._
    val dstream: InputDStream[ConsumerRecord[String, String]] =
  KafkaUtils.createDirectStream[String, String](
    ssc,
    LocationStrategies.PreferConsistent,
    ConsumerStrategies.Subscribe[String, String](conn.topic,
                                                 conn.kafkaProps)
  )
dstream.foreachRDD(rdd =>
  rdd.map(_.value).saveJsonToEs(resources,esConfig))
ssc.checkpoint("/tmp/OACSpark")
ssc.start()
ssc.awaitTermination()

我使用了typesafe配置从属性文件中读取配置。 我是以json的形式向kafka发布数据所以我使用了“saveJsonToEs()”api,您可以在Elasticsearch网站上的连接器文档中找到更多信息“

答案 1 :(得分:0)

到目前为止,我得到了一个解决方法,一次将记录推送到ES索引并删除了这个批量API(批量API也在幕后做同样的事情)。