Question

我正在使用nutch 1.7并尝试使用

抓取domain1.com

bin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5

但是在我更改urls / seed.txt后删除http://domain1.com/并添加http://domain2.com/重新运行上面的命令，抓取仍然抓取domain1.com而不是domain2.com。

有人知道为什么吗？

Answer 1

我找到了解决方案。我还需要更改regex-urlfilter.txt文件。