我正在使用apache-nutch-1.6,我可以成功抓取网站。 我的问题是并非使用了seed.txt文件中的所有条目。这取决于里面的网站。那么有没有限制爬行多少?没有错误消息。如果我删除了一个网站,其他网站就会被深深地抓取,无论其他网站是否存在,这个网站都会被抓取,而其他网站只会抓住我认为最重要的网站....
答案 0 :(得分:0)
正确配置:
bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000
深度:nutch将深入爬到这个水平
topN:在每个级别中,nutch将抓取此数量的网址