我有大量的PDF / Word / Excel等。索引的文件(现在40GB,但在一些monhts中可能高达1000GB)我正在考虑使用Solr,使用DataImportHandler和Tika。我已经阅读了很多关于这个主题的主题,但有一个问题我仍然没有找到解决方案:如果我索引所有文件(完整或增量导入),删除文件系统中的文件,再次索引(使用delta import),然后不会从索引中删除与该文件对应的文档。
以下是一些可能性:
您有其他想法,还是执行第二种解决方案的方法?提前谢谢。
一些细节:
答案 0 :(得分:2)
您是否考虑过使用文件系统监视器来捕获删除并更新索引?
我认为apache.commons.io支持这一点 查看apache.commons.io.monitor包,FileAlterationObserver和FileAlterationMonitor类。