我目前正在寻找我的python程序的文本索引器。我列出了Solr,一个Lucene项目和Whoosh,它是python的原生。我搜索了很多关于doc,docx和pdf文件支持的文档,Solr一直指着Tika包,其中一个版本与Solr集成。
如果任何软件包具有内置支持三种格式,则结果不会在某些术语中提及。 Whoosh和Solr是否支持他们?哪个其他开源索引器本地读取这些格式?
答案 0 :(得分:3)
使用Solr 1.4或更高版本,您可以即时上传和索引Word和PDF文件;见:http://wiki.apache.org/solr/ExtractingRequestHandler
Solr的ExtractingRequestHandler使用Tika允许用户将二进制文件上传到Solr并让Solr从中提取文本然后将其编入索引。