我遇到了一个问题,即我尝试对已经抓取的内容发布新抓取,但是使用了一些新的URL。
所以首先我有
urls / urls.txt - > www.somewebsite.com
然后我发出命令 bin/nutch crawl urls -dir crawl -depth 60 -threads 50
然后我更新urls / urls.txt - >删除www.somewebsite.com - >添加www.anotherwebsite.com
我发出命令
bin/nutch inject crawl urls
bin/nutch crawl urls -dir crawl -depth 60 -threads 50
我在这里期待的是,www.anotherwebsite.com被注入到现有的“抓取”数据库中,当再次发出抓取时,它应该只抓取新网站我添加了www.anotherwebsite.com(作为重新抓取)因原件设定为30天)
我所经历的是
1。)没有网站被抓取
2。)只抓取原始网站
'有时'如果我离开它几个小时就会开始工作并拿起新网站并抓取旧网站和新网站(即使重新设置时间设置为30天)
它非常奇怪且不可预测的行为。
我非常确定我的regex-urlfilter文件设置正确,我的nutch-site / nutch-default都设置为默认值(足够接近)。
问题:
任何人都可以简单地(使用命令)解释每次抓取过程中发生的事情,以及如何使用一些新的网址更新现有的抓取数据库?
任何人都可以解释(使用命令)我如何强制重新抓取爬网数据库中的“所有”网址? - 我发布了一个readdb并检查了重新获取时间,大多数都设置为一个月,但是如果我想早点再次重新获取该怎么办?