如何索引PDF文件并搜索关键字?

时间:2011-07-25 22:00:02

标签: python pdf indexing solr

我拥有的是一堆PDF(少数100个)。它们没有适当的结构,也没有特定的领域。他们所拥有的只是很多文字。

我要做的是:

索引PDF并针对索引搜索一些关键字。 我有兴趣查找特定关键字是否在PDF文档中,如果是,我想要找到关键字所在的行。 如果我在具有该术语的PDF文档中搜索“Google”,我希望看到“Google是一个很棒的搜索引擎”,这是PDF中的一行。

我决定如何做:

使用SOLR或Whoosh,但SOLR看起来很适合内置的PDF支持。我更喜欢用Python编写代码,而Sunburst是我喜欢的SOLR的包装器。 SOLR的示例/示例项目有一些基于价格比较的模式文件。现在我不确定我是否可以使用SOLR来回答我的问题。

你们有什么建议?任何意见都非常感谢。

3 个答案:

答案 0 :(得分:5)

我认为Solr符合您的需求。

您正在寻找“突出显示”功能..为此,您必须索引并将文档存储在lucene索引中。

突出显示功能会返回剪切,搜索到的文本会被标记。

看看这个:http://wiki.apache.org/solr/HighlightingParameters

答案 1 :(得分:4)

另一个离线/独立解决方案:

答案 2 :(得分:2)

我曾经通过将PDF文件转换为带有pdftotext实用程序的文本来解决这个问题(我猜也会pdftohtml),生成某种类型的“缓存”。然后使用一些grep我在文本文件缓存中搜索了关键字。

这与您提出的解决方案略有不同,但我可以想象您也可以从Python中调用它。