Solr用于索引和搜索文件夹中的PDF文件

时间:2014-04-30 12:30:17

标签: search pdf solr lucene indexing

我们有一位客户正在使用Google Search Appliance(GSA)搜索数千个PDF文件。 PDF文件位于子文件夹中组织的文件共享中。它会定期查找新文件并将其添加到数据库中。

GSA不能很好地工作,所以现在他们需要替代品。例如,他们的GSA不能正确搜索PDF中的垂直文本。我们和Tika以及ExtractingRequestHandler一起研究了Apache Lucene和Solr。

我已经启动并运行了Solr示例,并使用curl添加了一个可以搜索的PDF文件,甚至是垂直文本。我们的客户希望应用程序自动检测新文件;如果我可以每15分钟或每小时重新索引数据库,那就太好了。

所以我正在考虑制作一个shell脚本来查找新文件并添加它们或类似的东西。也许在添加文件之前查询Solr以查看它是否已经在Solr中。那会有意义吗?

此外,Solr甚至是我们想要做的正确工具吗?

1 个答案:

答案 0 :(得分:0)

你所说的是“delta indexing”。因此,仅对新添加或更改的文档编制索引。您应该阅读Solr-Documentation以获取更多相关信息。