应用错误收集

如何告诉Nutch在没有存储的情况下抓取通过 url？

时间：2013-08-27 23:40:09

标签： solr search-engine nutch intranet

假设我有一个Confluence实例，我想抓取它并将结果存储在Solr中作为Intranet搜索引擎的一部分。

现在假设我只想在Confluence实例上存储一部分页面（匹配正则表达式）作为搜索引擎的一部分。

但是，我确实希望Nutch抓取所有其他页面，寻找匹配页面的链接 - 我只是不希望Nutch存储它们（或者至少我不想要Solr在结果中返回它们。）

将Nutch-＆gt; Solr设置为像这样工作的正常或最不痛苦的方法是什么？

1 个答案:

答案 0 :(得分：1)

看起来这样做的唯一方法就是编写自己的IndexFilter插件（或者找一个人来复制）。

[将在正常工作时添加我的示例插件代码]

参考文献：