我正在使用nutch 1.7并尝试使用
抓取domain1.combin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5
但是在我更改urls / seed.txt后删除http://domain1.com/并添加http://domain2.com/重新运行上面的命令,抓取仍然抓取domain1.com而不是domain2.com。
有人知道为什么吗?
答案 0 :(得分:1)
我找到了解决方案。我还需要更改regex-urlfilter.txt文件。