使用Sphinx索引Word文档和PDF

时间:2009-07-30 17:11:41

标签: pdf ms-word

我有一个网站,用户上传.doc和.pdf格式的文件。我正在使用Sphinx对我的SQL数据库(MySQL)进行全文搜索。使用Sphinx索引这些文件格式的最佳方法是什么?

3 个答案:

答案 0 :(得分:9)

我使用的方法是pdf2text和antiword。我使用这两个来将pdfs和word文档的内容转储到数据库中。从那里可以很容易地爬上Sphinx。

答案 1 :(得分:6)

不幸的是,Sphinx无法直接索引这些文件类型。您需要将文本内容导入数据库,或导入an XML format that Sphinx can understand

答案 2 :(得分:1)

有没有人使用Tika来索引其他类型的文档,就像SOLR插件一样? Apache Tika

一些链接:

  1. PDF2TEXT is in poppler or poppler-utils on Linux
  2. ANTIWORD -- seems to be for old .doc, not newer .docx