将elasticsearch索引数据加载到pyspark rdd:error

时间:2016-08-30 15:25:15

标签: elasticsearch pyspark

我正在尝试使用以下代码将弹性搜索索引数据加载到pyspark rdd

版本:elasticsearch:2.3.4          火花:2.0          elasticsearch-hadoop(jar):2.3.4

运行pyspark:

bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar

enter image description here

获取索引数据:

es_read_conf = {"es.resource" : "index/type"}

es_rdd = sc.newAPIHadoopRDD(
    inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
    keyClass="org.apache.hadoop.io.NullWritable", 
    valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable", 
    conf= es_read_conf)

代码正在运行,但返回空的rdd,后面是msg,

16/08/30 20:42:20 WARN EsInputFormat: Cannot determine task id...

我在这里遗漏了什么吗?

0 个答案:

没有答案