以编程方式搜索多个PDF文件以查找关键字和注释页码

时间:2013-09-11 10:15:55

标签: search pdf

我在一个博物馆工作,有数百个科学论文pdf坐在一个目录中。我对所有这些进行了OCR,以便可以在Adobe Reader等程序中搜索关键字。我需要编写一个程序,允许我在此目录中搜索特定的物种名称,并生成与关键字匹配的文档列表以及相应的页码。

我正在寻找一个pdf库,我可以完成这项任务(希望)是免费的。我使用PDFOne Library编写了一个小程序,但搜索大约需要10分钟才能在目录中搜索一个术语。我想大幅减少时间,因为Adobe Reader和PDF-XchangeViewer可以在一分钟内执行相同的搜索。我不喜欢使用语言。

任何人都可以指引我找到合适的资源,这样我才能完成这项任务吗?感谢。

1 个答案:

答案 0 :(得分:2)

我建议您评估Apache Solr的使用 - 它可以非常有效地索引PDF文件。

http://lucene.apache.org/solr/