假设我已连接并使用Nutch(2.2.1)+ Solr(4.3),那么Apache Tika的最佳集成是什么?
我知道Tika可以整合到Nutch和/或Solr中,但哪一个是最好的决定?
答案 0 :(得分:1)
使用Nutch设置Tika插件,Nutch将为您解析数据并为您完成所有艰苦的工作。
我建议在Solr上设置它,你可能希望通过curl
命令将文件发送给Solr,这也有助于在Solr上设置它。它几乎没有额外配置,也没有性能成本:
有一个设置Tika& amp;的指南提取请求处理程序here
答案 1 :(得分:0)
在Nutch的解析阶段应用tika解析器。