使用document_id作为csv字段将csv从Python传输到Elasticsearch

时间:2020-06-23 09:12:19

标签: python elasticsearch

希望将csv之后的内容转移到elsticsearch

|hcode|hname|
|1|aaaa|
|2|bbbbb|
|3|ccccc|
|4|dddd|
|5|eeee|
|6|ffff|

,需要插入hcode字段作为document_id。低于错误

  File "C:\Users\Namali\Anaconda3\lib\site-packages\elasticsearch\connection\base.py", line 181, in _raise_error
    status_code, error_message, additional_info

RequestError: RequestError(400, 'mapper_parsing_exception', 'failed to parse')"

使用elasticseach版本是7.1.1和python vervion是3.7.6 Python代码------------------------------------------------ -----------------

import csv
import json

from elasticsearch import Elasticsearch

es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

def csv_reader(file_obj, delimiter=','):
   reader_ = csv.reader(file_obj,delimiter=delimiter,quotechar='"')
   
   i = 1
   results = []
   for row in reader_:
    #try :
    #es.index(index='hb_hotel_raw', doc_type='hb_hotel_raw', id=row[0], 
                # body=json.dump([row for row in reader_], file_obj))
    es.index(index='test', doc_type='test', id=row[0],body=json.dumps(row))
    #except:
    #    print("error")
    i = i + 1
    results.append(row)
    print(row)

if __name__ == "__main__":
  with open("D:\\namali\\rez\\data_mapping\\test.csv") as f_obj:
    csv_reader(f_obj)

2 个答案:

答案 0 :(得分:0)

首先,elasticsearch 7中省略了doc_type。其次,您需要将有效的json传递给elasticsearch。我编辑了您的代码,如下所示:

for row in reader_:
    _id = row[0].split("|")[1]
    text = row[0].split("|")[2]
    my_dict = {"hname" : text}
    es.index(index='test', id=_id, body=my_dict)

答案 1 :(得分:0)

<披露:我是Eland的开发人员,并受雇于Elastic>

如果您愿意将CSV加载到Pandas DataFrame中,则可以使用Eland将表格数据创建/附加到Elasticsearch索引上,并正确解析所有数据类型。

我建议阅读pandas.read_csv()eland.pandas_to_eland()函数文档,以获取有关如何完成此操作的想法。