如何将以前排除的URL包含在nutch爬网中

时间:2013-05-27 09:38:01

标签: hadoop nutch

使用Nutch 2.1

在初始抓取期间,我排除了一些网址以限制要抓取的网页数量。现在,当我从regex-urlfilter.txt中删除这些拒绝规则并运行这些命令时,我不会得到那些过滤后的网址:

bin/nutch updatedb
bin/nutch generate
bin/nutch fetch -all

我错过了什么?

1 个答案:

答案 0 :(得分:1)

This post超过nutch用户组可能会帮助您做到这一点。