标签: solr nutch apache-tika
我正在尝试使用Apache Nutch抓取数据并使用Apache Solr对其进行索引。
作为其中的一部分,我也想解析内容。我想弄清楚将Tika应用于Nutch,Solr还是两者都更好。
答案 0 :(得分:2)
尽早应用它,但要确保将原始的,完整保真的文档保留在某处。
如果您知道最终要将其缩减为一组元数据字段并摆脱其余部分,则无法传递二进制文件。