Solr索引纯文本文件而不必通过Tika运行它们吗?

时间:2012-08-04 12:21:23

标签: solr apache-tika

我只是在与Solr的研究阶段,但到目前为止,似乎要索引非结构化文本文件,我必须使用Tika将其转换为XML?这是真的?我觉得奇怪的是,Lucene可以在没有任何转换的情况下对任意文本进行标记和索引,但Solr需要这个转换为XML的额外步骤。我想也许我只是错过了一些东西。

我正在寻找近乎实时的全文搜索数百万个文件和每天数百GB,因此额外的Tika转换很麻烦。

2 个答案:

答案 0 :(得分:2)

感谢您的回复。 @javanna我的问题最好被问为“无需以任何方式预处理输入”。其中太多太快了,它们太大了,速度很重要。 @Oklein在研究你提到的DIH时,我偶然发现了这个文件:

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本上我正在追求的答案是,使用ExtractingRequestHandler来处理纯文本文件并即时添加额外的字段。现在我正在使用cURL,它可以使用GET参数添加字段,并且可以使用SolrJ进行等效操作。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

答案 1 :(得分:1)

查看DIH

中的PlainTextEntityProcessor