Nutch和solr索引黑名单域名

时间:2016-02-17 06:44:14

标签: solr web-crawler nutch

我正在使用nutch 1.9和solr 4.10。我想在nutch和solr中避免域名www.aaa.com gettign index

在nutch配置中 conf / domainblacklist-urlfilter.txt我添加了“www.aaa.com”。在conf / domain-urlfilter.txt中我添加了“www.bbb.com” 在regex-urlfilter.txt中我添加了

+ ^ http://www.bbb.com - ^ http://www.aaa.com

但是请注意,www.aaa.com域名仍然在索引中获得索引。

有人可以提供输入以解决这个问题吗

1 个答案:

答案 0 :(得分:0)

为避免索引网址,最简单的解决方法是避免抓取此网址。

  • 将此行添加到regex-urlfilter.txt:

    -^(http|https)://.*aaa.*$
    
  • 在你的nutch-site.xml中添加此配置(我添加了一些额外的插件):

    <property>
    <name>plugin.includes</name>
    <value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
    </value>
    </property>
    
  • 编译$ NUTCH_HOME:

    ant runtime
    
  • 如果还不够,这是因为在您的数据库或文件中,您有一些不好的网址。因此删除所有数据库(Nutch 2的Hbase / Cassandra和nutch 1的段文件)。在那之后,重试爬行,这将是好的。 :)