假设我有一个Confluence实例,我想抓取它并将结果存储在Solr中作为Intranet搜索引擎的一部分。
现在假设我只想在Confluence实例上存储一部分页面(匹配正则表达式)作为搜索引擎的一部分。
但是,我确实希望Nutch抓取所有其他页面,寻找匹配页面的链接 - 我只是不希望Nutch存储它们(或者至少我不想要Solr在结果中返回它们。)
将Nutch-> Solr设置为像这样工作的正常或最不痛苦的方法是什么?
答案 0 :(得分:1)
看起来这样做的唯一方法就是编写自己的IndexFilter插件(或者找一个人来复制)。
[将在正常工作时添加我的示例插件代码]
参考文献: