我目前正尝试使用Python API重新索引大量数据(约9600万份文档),特别是reindex
命令。
运行命令时,我最终会从bulk
命令获得超时错误。我已经尝试将bulk_kwargs request_timeout
设置为24小时,但它仍然超时... 28小时后加载了5700万条记录。
重新运行reindex只会删除现有的重新索引并重新开始。
无论错误发生的原因(我认为我遇到了可以解决的磁盘瓶颈问题。没有out of memory
错误)是否有任何简单的方法可以继续重新索引从哪里去世?
答案 0 :(得分:1)
如果您说您要删除现有的并重新开始,那么只需删除索引并创建新索引并将其输入。会更快。
或强>
如果您不能拥有空索引,则逐个或使用某些批量删除某些id
标识的项目,并根据id
进行更新。