假设有一个网站abc.com,我们将abc.com抓取100页,如下所示。
第1天:通过将maxDocumentsToDownload指定为100,在heritrix中创建一个抓取作业 第2天:在heritrix中克隆上述作业并运行。
如果网站在两天内没有变化,我会得到相同的100页或不同的100页吗?
如果需要更多信息,请告诉我
谢谢, Hareesh
答案 0 :(得分:0)
在第二天克隆作业后,除非更新网站(网页),否则基本上会下载相同的页面。 另一方面,在运行作业时,Heritrix会尽量不要两次抓取同一页面。因为abc.com和abc.com/index可能指向相同的webp