我有一个网站,用户上传.doc和.pdf格式的文件。我正在使用Sphinx对我的SQL数据库(MySQL)进行全文搜索。使用Sphinx索引这些文件格式的最佳方法是什么?
答案 0 :(得分:9)
我使用的方法是pdf2text和antiword。我使用这两个来将pdfs和word文档的内容转储到数据库中。从那里可以很容易地爬上Sphinx。
答案 1 :(得分:6)
不幸的是,Sphinx无法直接索引这些文件类型。您需要将文本内容导入数据库,或导入an XML format that Sphinx can understand。
答案 2 :(得分:1)
有没有人使用Tika来索引其他类型的文档,就像SOLR插件一样? Apache Tika
一些链接: