我拥有的是一堆PDF(少数100个)。它们没有适当的结构,也没有特定的领域。他们所拥有的只是很多文字。
我要做的是:
索引PDF并针对索引搜索一些关键字。 我有兴趣查找特定关键字是否在PDF文档中,如果是,我想要找到关键字所在的行。 如果我在具有该术语的PDF文档中搜索“Google”,我希望看到“Google是一个很棒的搜索引擎”,这是PDF中的一行。
我决定如何做:
使用SOLR或Whoosh,但SOLR看起来很适合内置的PDF支持。我更喜欢用Python编写代码,而Sunburst是我喜欢的SOLR的包装器。 SOLR的示例/示例项目有一些基于价格比较的模式文件。现在我不确定我是否可以使用SOLR来回答我的问题。
你们有什么建议?任何意见都非常感谢。
答案 0 :(得分:5)
我认为Solr符合您的需求。
您正在寻找“突出显示”功能..为此,您必须索引并将文档存储在lucene索引中。
突出显示功能会返回剪切,搜索到的文本会被标记。
答案 1 :(得分:4)
另一个离线/独立解决方案:
答案 2 :(得分:2)
我曾经通过将PDF文件转换为带有pdftotext
实用程序的文本来解决这个问题(我猜也会pdftohtml
),生成某种类型的“缓存”。然后使用一些grep
我在文本文件缓存中搜索了关键字。
这与您提出的解决方案略有不同,但我可以想象您也可以从Python中调用它。