作为序言,我知道在各个地方都有讨论。 我阅读的一半是过时的,错误的或者与我的情况无关。
这就是为什么我把它带到社区,我知道会得到答案。
问题:我在PDF文档中有一个大约70,000页的目录(在线是理想的)(文档范围从20到100页,加起来大约70,000页)。
我正在寻找一种方法,脚本或想法,以便以最简单的方式搜索这些PDF产品。 PDF都有一个由OCR在Acrobat中创建的文本层。
任何想法,无论是精心设计还是创造性,都非常受欢迎。
答案 0 :(得分:2)
使用Lucene或Sphinx等搜索引擎对PDF进行索引和标记。 Zend Framework同时包含a component to read and write PDF files和a Lucene implementation。
答案 1 :(得分:2)
XPDF有一个名为pdftotext的实用程序,它通常安装在Linux发行版上。我将创建一个工具,使用它来创建它们出现的文档的单词索引。您可以将索引存储在数据库中,然后针对该数据写入搜索。
这需要更多的空间,但是在搜索结果中包含一个上下文句子也很简单。
答案 2 :(得分:2)
我的建议是Apache Solr(使用Lucene构建的搜索服务器)并且使用RESTful接口很简单。它还有一个名为Tika的子项目,它从多种格式(包括PDF)中提取元数据和结构化文本内容。