Nutch不会抓取所有网址

时间:2020-06-29 13:50:01

标签: solr web-crawler nutch

我正在使用Nutch通过命令使用抓取脚本进行网络抓取

bin/crawl -s urls crawl 3

在我的门户网站中,每个页面应该有2个可用版本。如果我的页面带有链接example.com/docs,则所有页面应该有两个版本,分别为example.com/docs?v=1example.com/docs?v=2,内容将有所不同。当我运行Nutch抓取脚本时,它只能获取一个版本的文档。

我该如何解决?

0 个答案:

没有答案
相关问题