应用错误收集

时间：2010-08-05 14:55:26

标签： php search pdf

作为序言，我知道在各个地方都有讨论。我阅读的一半是过时的，错误的或者与我的情况无关。

这就是为什么我把它带到社区，我知道会得到答案。

问题：我在PDF文档中有一个大约70,000页的目录（在线是理想的）（文档范围从20到100页，加起来大约70,000页）。

我正在寻找一种方法，脚本或想法，以便以最简单的方式搜索这些PDF产品。 PDF都有一个由OCR在Acrobat中创建的文本层。

任何想法，无论是精心设计还是创造性，都非常受欢迎。

答案 0 :(得分：2)

使用Lucene或Sphinx等搜索引擎对PDF进行索引和标记。 Zend Framework同时包含a component to read and write PDF files和a Lucene implementation。

答案 1 :(得分：2)

XPDF有一个名为pdftotext的实用程序，它通常安装在Linux发行版上。我将创建一个工具，使用它来创建它们出现的文档的单词索引。您可以将索引存储在数据库中，然后针对该数据写入搜索。

这需要更多的空间，但是在搜索结果中包含一个上下文句子也很简单。

答案 2 :(得分：2)

我的建议是Apache Solr（使用Lucene构建的搜索服务器）并且使用RESTful接口很简单。它还有一个名为Tika的子项目，它从多种格式（包括PDF）中提取元数据和结构化文本内容。