Solr或Nutch上的最佳Tika集成

时间:2013-08-08 17:46:14

标签: solr nutch apache-tika

假设我已连接并使用Nutch(2.2.1)+ Solr(4.3),那么Apache Tika的最佳集成是什么?

我知道Tika可以整合到Nutch和/或Solr中,但哪一个是最好的决定?

2 个答案:

答案 0 :(得分:1)

使用Nutch设置Tika插件,Nutch将为您解析数据并为您完成所有艰苦的工作。

我建议在Solr上设置它,你可能希望通过curl命令将文件发送给Solr,这也有助于在Solr上设置它。它几乎没有额外配置,也没有性能成本:

有一个设置Tika& amp;的指南提取请求处理程序here

答案 1 :(得分:0)

在Nutch的解析阶段应用tika解析器。