应用错误收集

时间：2011-07-25 22:00:02

标签： python pdf indexing solr

我拥有的是一堆PDF（少数100个）。它们没有适当的结构，也没有特定的领域。他们所拥有的只是很多文字。

我要做的是：

索引PDF并针对索引搜索一些关键字。我有兴趣查找特定关键字是否在PDF文档中，如果是，我想要找到关键字所在的行。如果我在具有该术语的PDF文档中搜索“Google”，我希望看到“Google是一个很棒的搜索引擎”，这是PDF中的一行。

我决定如何做：

使用SOLR或Whoosh，但SOLR看起来很适合内置的PDF支持。我更喜欢用Python编写代码，而Sunburst是我喜欢的SOLR的包装器。 SOLR的示例/示例项目有一些基于价格比较的模式文件。现在我不确定我是否可以使用SOLR来回答我的问题。

你们有什么建议？任何意见都非常感谢。

答案 0 :(得分：5)

我认为Solr符合您的需求。

您正在寻找“突出显示”功能..为此，您必须索引并将文档存储在lucene索引中。

突出显示功能会返回剪切，搜索到的文本会被标记。

答案 1 :(得分：4)

另一个离线/独立解决方案：

https://github.com/WolfgangFahl/pdfindexer 它使用PDFBox和Apache Lucene，并将为每个找到的关键字创建一个HTML索引文件，其中包含指向PDF文件中页面的链接。

答案 2 :(得分：2)

我曾经通过将PDF文件转换为带有pdftotext实用程序的文本来解决这个问题（我猜也会pdftohtml），生成某种类型的“缓存”。然后使用一些grep我在文本文件缓存中搜索了关键字。

这与您提出的解决方案略有不同，但我可以想象您也可以从Python中调用它。