使用Lucene使用Symfony索引PDF文件

时间:2010-02-19 12:43:26

标签: full-text-search lucene symfony1 apache-tika

我是Symfony开发人员,我的Web服务器是Linux。我已经使用了sfLucene插件。

在Linux PHP服务器上索引PDF文件以进行搜索的最简单方法是什么?

  1. XPDF,已安装like this
  2. Apache Tika通过SOLR sfLucene plugin branch
  3. 第三种选择?
  4. 谢谢!

2 个答案:

答案 0 :(得分:3)

来自Zend背景,我通常建议使用Zend_Search_Lucene。 XPDF的例子非常简单,看起来很简单。 XPDF被许可为GPL - 如果符合您的需要,请转到#1!

ZF可以轻松集成到您的Symfony项目中,例如对于Twitter Call

答案 1 :(得分:2)

有许多用于从PDF中提取文本内容的库。使用其中任何一个,您需要创建包含内容的lucene文档。最有用的将是已经有lucene集成的那些。

Apache PDFBox可以直接从PDF文件create a lucene文档。它将包括PDF元数据字段以及文本内容。