标签: nutch
例如,如果我的网站总共包含10个URL,则在我的第一次爬网中,我将爬网所有的URL,而在第二次爬网时,它应仅爬网具有更改的url /页面,而不会对其他页面进行爬网。使用站点地图来确定已更改的页面并对其进行爬网。