Nutch更改seed.txt不起作用

时间:2013-11-27 03:04:46

标签: nutch

我正在使用nutch 1.7并尝试使用

抓取domain1.com
bin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5

但是在我更改urls / seed.txt后删除http://domain1.com/并添加http://domain2.com/重新运行上面的命令,抓取仍然抓取domain1.com而不是domain2.com。

有人知道为什么吗?

1 个答案:

答案 0 :(得分:1)

我找到了解决方案。我还需要更改regex-urlfilter.txt文件。