Nutch Crawling并忽略了新的网址

时间:2013-10-20 20:59:05

标签: nutch

我遇到了一个问题,即我尝试对已经抓取的内容发布新抓取,但是使用了一些新的URL。

所以首先我有

urls / urls.txt - > www.somewebsite.com

然后我发出命令

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

然后我更新urls / urls.txt - >删除www.somewebsite.com - >添加www.anotherwebsite.com

我发出命令

bin/nutch inject crawl urls

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

我在这里期待的是,www.anotherwebsite.com被注入到现有的“抓取”数据库中,当再次发出抓取时,它应该只抓取新网站我添加了www.anotherwebsite.com(作为重新抓取)因原件设定为30天)

我所经历的是

1。)没有网站被抓取

2。)只抓取原始网站

'有时'如果我离开它几个小时就会开始工作并拿起新网站并抓取旧网站和新网站(即使重新设置时间设置为30天)

它非常奇怪且不可预测的行为。

我非常确定我的regex-urlfilter文件设置正确,我的nutch-site / nutch-default都设置为默认值(足够接近)。

问题:

任何人都可以简单地(使用命令)解释每次抓取过程中发生的事情,以及如何使用一些新的网址更新现有的抓取数据库?

任何人都可以解释(使用命令)我如何强制重新抓取爬网数据库中的“所有”网址? - 我发布了一个readdb并检查了重新获取时间,大多数都设置为一个月,但是如果我想早点再次重新获取该怎么办?

1 个答案:

答案 0 :(得分:3)

文章Here以足够的深度解释了抓取过程