我正在使用solr 7.3.1为文档建立索引。现在,它正在对引用位置中的每个文档编制索引(这非常大,接近1 TB)。它 需要3-4天才能索引整个文件夹。而且文档每小时都在不断编辑,添加和删除。保持Solr索引更新的最佳方法是什么?
答案 0 :(得分:0)
创建一个小型应用程序,以监听存储文档的文档层次结构内的文件系统事件。
这样,您可以在将文档写入磁盘后立即将其发送到Solr。确切的操作方式取决于您的操作系统以及可以使用哪种语言编写代码。Linux下有inotify
的钩子,您可以通过inotifywait
和bash
使用它们,或者可以将inotify
用作a python module。
这样,您可以在将任何更新的文档写入磁盘后立即对其进行索引,并且可以在常规的初始索引操作运行时执行此操作。
但是,如果每个文档每小时都在更改(这意味着您必须每小时在每个小时内对每个文档进行索引),则必须扩展基础结构才能对内容进行索引在一个小时内尽可能快地完成操作,但是确切的操作方法将取决于许多因素(例如文档类型,可用的库,项目中的其他限制等),并且可能超出此处可以适当回答的范围。