我使用apache nutch进行网络爬行.....我已经进行了两轮。它生成了一个爬行数据库,包含21个url作为获取状态,537 url作为未获取状态。我想更新抓取中crawldb中所有链接的状态,因为某些原因。有没有办法更新状态?
答案 0 :(得分:0)
我找到了回答我的问题并希望与大家分享。在获取两轮之后,我已使用命令&bin; / bin / nd2更新数据库&bin; / bin; $ s;'。然后,数据库将使用新网址进行更新,状态为“未获取”状态'。但是如果' bin / nutch updatedb crawl / crawldb $ s2 -noAdditions',则不会向数据库中添加新的网址,并将已存在的网址状态设置为' fetched'。