我是Symfony开发人员,我的Web服务器是Linux。我已经使用了sfLucene插件。
在Linux PHP服务器上索引PDF文件以进行搜索的最简单方法是什么?
谢谢!
答案 0 :(得分:3)
来自Zend背景,我通常建议使用Zend_Search_Lucene。 XPDF的例子非常简单,看起来很简单。 XPDF被许可为GPL - 如果符合您的需要,请转到#1!
ZF可以轻松集成到您的Symfony项目中,例如对于Twitter Call。
答案 1 :(得分:2)
有许多用于从PDF中提取文本内容的库。使用其中任何一个,您需要创建包含内容的lucene文档。最有用的将是已经有lucene集成的那些。
Apache PDFBox可以直接从PDF文件create a lucene文档。它将包括PDF元数据字段以及文本内容。