如何告诉Nutch在没有存储的情况下抓取*通过* url?

时间:2013-08-27 23:40:09

标签: solr search-engine nutch intranet

假设我有一个Confluence实例,我想抓取它并将结果存储在Solr中作为Intranet搜索引擎的一部分。

现在假设我只想在Confluence实例上存储一部分页面(匹配正则表达式)作为搜索引擎的一部分。

但是,我确实希望Nutch抓取所有其他页面,寻找匹配页面的链接 - 我只是不希望Nutch存储它们(或者至少我不想要Solr在结果中返回它们。)

将Nutch-> Solr设置为像这样工作的正常或最不痛苦的方法是什么?

1 个答案:

答案 0 :(得分:1)

看起来这样做的唯一方法就是编写自己的IndexFilter插件(或者找一个人来复制)。

[将在正常工作时添加我的示例插件代码]

参考文献: