标签: solr web-crawler nutch
我正在使用Nutch通过命令使用抓取脚本进行网络抓取
bin/crawl -s urls crawl 3
在我的门户网站中,每个页面应该有2个可用版本。如果我的页面带有链接example.com/docs,则所有页面应该有两个版本,分别为example.com/docs?v=1和example.com/docs?v=2,内容将有所不同。当我运行Nutch抓取脚本时,它只能获取一个版本的文档。
example.com/docs
example.com/docs?v=1
example.com/docs?v=2
我该如何解决?