轻松的方法继续失败的reindex?

时间:2016-09-06 14:27:45

标签: python elasticsearch

我目前正尝试使用Python API重新索引大量数据(约9600万份文档),特别是reindex命令。

运行命令时,我最终会从bulk命令获得超时错误。我已经尝试将bulk_kwargs request_timeout设置为24小时,但它仍然超时... 28小时后加载了5700万条记录。 重新运行reindex只会删除现有的重新索引并重新开始。

无论错误发生的原因(我认为我遇到了可以解决的磁盘瓶颈问题。没有out of memory错误)是否有任何简单的方法可以继续重新索引从哪里去世?

1 个答案:

答案 0 :(得分:1)

如果您说您要删除现有的并重新开始,那么只需删除索引并创建新索引并将其输入。会更快。

如果您不能拥有空索引,则逐个或使用某些批量删除某些id标识的项目,并根据id进行更新。