应用错误收集

批量Elasticsearch 5.6中的JSON文件索引

时间：2019-01-17 12:15:34

标签： python elasticsearch elasticsearch-py elasticsearch-bulk-api

我有一个包含590,035 json个文件的文件夹。每个文件都是必须索引的文档。如果我使用python为每个文档编制索引，则将花费30多个小时。如何快速索引这些文档？

注意-我已经看到了批量api，但这需要将所有文件合并为一个文件，这花费的时间与上述时间相似。请告诉我如何提高速度。谢谢。

1 个答案:

答案 0 :(得分：0)

如果您确定I / O是瓶颈，请使用线程来读取文件，即使用ThreadPoolExecutor进行读取，然后累积大量请求，或者一一保存。在您使用唯一或内部ID之前，ES都不会有任何问题。

批量处理可以更快地工作，只需节省您的HTTP开销时间，就可以以1比1的方式节省代码。