将Apache Tika应用于Solr而不是Nutch有什么好处

时间:2014-10-22 01:21:42

标签: solr nutch apache-tika

我正在尝试使用Apache Nutch抓取数据并使用Apache Solr对其进行索引。

作为其中的一部分,我也想解析内容。我想弄清楚将Tika应用于Nutch,Solr还是两者都更好。

1 个答案:

答案 0 :(得分:2)

尽早应用它,但要确保将原始的,完整保真的文档保留在某处。

如果您知道最终要将其缩减为一组元数据字段并摆脱其余部分,则无法传递二进制文件。