使用Solr CELL的ExtractingRequestHandler从包格式索引/提取文件

时间:2010-10-25 17:27:18

标签: java solr full-text-search apache-tika solr-cell

你可以使用ExtractingRequestHandler和Tika吗? 压缩文件格式(zip,tar,gz等)以提取内容以进行索引?

我使用curl发送solived archived.tar文件。卷曲“ http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true” -H'Content-type:application / octet-stream' - data-binary “@ /家/ archived.tar” 我查询文档时得到的结果是文件名在里面 archive被索引为“body_texts”,但这些文件的内容是 未提取或包含。这不是我预期的行为。参考: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example。 当我使用相同的卷曲发送存档内的1个实际文档时 命令将提取的内容存储在“body_texts”字段中。上午 我错过了压缩文件的步骤?

我添加了所有提取依赖项,如mat所示 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell和 能够从MS Word,PDF,HTML文档中成功提取数据。

我正在使用以下库版本。   Solr 1.40,Solr Cell 1.4.1,Tika Core 0.4

鉴于我所读到的一切,这个版本的Tika应该支持提取 来自压缩文件中所有文件的数据。任何帮助或建议 不胜感激。

1 个答案:

答案 0 :(得分:1)

答案简短:Solr Cell 1.4.1和Tika Core 0.6。

答案很长:在经历了很多头痛之后,我能够让这个工作起来。我将为使用solr的人和使用solr使用Ruby库太阳黑子的人(这是我的问题)回答它。

这就是我所做的:我使用这个https://github.com/tomasc/sunspot_cell插件来扩展太阳黑子并赋予它附件功能。 (如果你没有使用红宝石/太阳黑子,请忽略此步骤)

v1.4.1适用于单个文件但不适用于压缩文件,所以我不得不探索一下。我从http://lucene.apache.org/solr/下载了v1.4.1代码库并抓住了dist / apache-solr-cell-1.4.1.jar然后我必须从1.5分支http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/下载Tika库。

您可以单独下载每个,或者您可以使用svn通过

结帐分支
svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

或者只是结帐库文件夹:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/