标签: hadoop nutch
使用Nutch 2.1
在初始抓取期间,我排除了一些网址以限制要抓取的网页数量。现在,当我从regex-urlfilter.txt中删除这些拒绝规则并运行这些命令时,我不会得到那些过滤后的网址:
bin/nutch updatedb bin/nutch generate bin/nutch fetch -all
我错过了什么?
答案 0 :(得分:1)
This post超过nutch用户组可能会帮助您做到这一点。