文本索引器(用于python),内置对doc,docx和pdf文件的支持

时间:2011-07-16 11:07:31

标签: python solr full-text-search whoosh solr-cell

我目前正在寻找我的python程序的文本索引器。我列出了Solr,一个Lucene项目和Whoosh,它是python的原生。我搜索了很多关于doc,docx和pdf文件支持的文档,Solr一直指着Tika包,其中一个版本与Solr集成。

如果任何软件包具有内置支持三种格式,则结果不会在某些术语中提及。 Whoosh和Solr是否支持他们?哪个其他开源索引器本地读取这些格式?

1 个答案:

答案 0 :(得分:3)

使用Solr 1.4或更高版本,您可以即时上传和索引Word和PDF文件;见:http://wiki.apache.org/solr/ExtractingRequestHandler

  

Solr的ExtractingRequestHandler使用Tika允许用户将二进制文件上传到Solr并让Solr从中提取文本然后将其编入索引。