我是Solr Indexing的新手。我正在寻找各种方法来索引大于GB的文件(可以更多)。我已经尝试过Apache Tika来索引文件。如果大小不超过30MB,它的效果很好。对于大于此的文件,尽管将内存大小增加到4096MB,我仍然会出现内存异常(有些博客建议使用Apache Tika进行大型文件索引以避免内存问题。我还没有尝试过)。我想知道是否有更好的方法来索引大文件。我已阅读有关数据导入处理程序(DIH)的信息,但不确定如何将其与现有的Solr设置集成。有谁知道怎么去DIH。我花了几天时间来整合,但似乎没有工作。从安装DIH直到处理一些示例文件一步一步的过程将有很大帮助。如果还有其他方法可以索引大文件,请同时提供建议。
我基本上尝试在我的一个Web门户中实现搜索功能,用户可以从各种文件服务器访问文件。他应该能够检查哪些文件包含他在搜索栏中输入的内容。我将每天运行一份工作来挑选更改/新文件并重新编制索引。