我正在尝试使用以下代码将弹性搜索索引数据加载到pyspark rdd
版本:elasticsearch:2.3.4 火花:2.0 elasticsearch-hadoop(jar):2.3.4
运行pyspark:
bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar
获取索引数据:
es_read_conf = {"es.resource" : "index/type"}
es_rdd = sc.newAPIHadoopRDD(
inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
keyClass="org.apache.hadoop.io.NullWritable",
valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",
conf= es_read_conf)
代码正在运行,但返回空的rdd,后面是msg,
16/08/30 20:42:20 WARN EsInputFormat: Cannot determine task id...
我在这里遗漏了什么吗?