Question

我正在使用nutch 1.9和solr 4.10。我想在nutch和solr中避免域名www.aaa.com gettign index

在nutch配置中 conf / domainblacklist-urlfilter.txt我添加了“www.aaa.com”。在conf / domain-urlfilter.txt中我添加了“www.bbb.com” 在regex-urlfilter.txt中我添加了

+ ^ http://www.bbb.com - ^ http://www.aaa.com

但是请注意，www.aaa.com域名仍然在索引中获得索引。

有人可以提供输入以解决这个问题吗

Answer 1

为避免索引网址，最简单的解决方法是避免抓取此网址。

将此行添加到regex-urlfilter.txt：
```
-^(http|https)://.*aaa.*$
```

在你的nutch-site.xml中添加此配置（我添加了一些额外的插件）：

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
</value>
</property>

编译$ NUTCH_HOME：
```
ant runtime
```
如果还不够，这是因为在您的数据库或文件中，您有一些不好的网址。因此删除所有数据库（Nutch 2的Hbase / Cassandra和nutch 1的段文件）。在那之后，重试爬行，这将是好的。：）

Nutch和solr索引黑名单域名

1 个答案: