我有一个包含590,035 json
个文件的文件夹。每个文件都是必须索引的文档。如果我使用python为每个文档编制索引,则将花费30多个小时。如何快速索引这些文档?
注意-我已经看到了批量api,但这需要将所有文件合并为一个文件,这花费的时间与上述时间相似。 请告诉我如何提高速度。谢谢。
答案 0 :(得分:0)
如果您确定I / O是瓶颈,请使用线程来读取文件,即使用ThreadPoolExecutor
进行读取,然后累积大量请求,或者一一保存。在您使用唯一或内部ID之前,ES都不会有任何问题。
批量处理可以更快地工作,只需节省您的HTTP开销时间,就可以以1比1的方式节省代码。