批量Elasticsearch 5.6中的JSON文件索引

时间:2019-01-17 12:15:34

标签: python elasticsearch elasticsearch-py elasticsearch-bulk-api

我有一个包含590,035 json个文件的文件夹。每个文件都是必须索引的文档。如果我使用python为每个文档编制索引,则将花费30多个小时。如何快速索引这些文档?

注意-我已经看到了批量api,但这需要将所有文件合并为一个文件,这花费的时间与上述时间相似。 请告诉我如何提高速度。谢谢。

1 个答案:

答案 0 :(得分:0)

如果您确定I / O是瓶颈,请使用线程来读取文件,即使用ThreadPoolExecutor进行读取,然后累积大量请求,或者一一保存。在您使用唯一或内部ID之前,ES都不会有任何问题。

批量处理可以更快地工作,只需节省您的HTTP开销时间,就可以以1比1的方式节省代码。