每次在nutch中重新爬行时抓取1000个网址

时间:2011-03-01 06:24:31

标签: nutch

您好  我写了一个抓取脚本来抓取网址,如果我使用这个,我需要为每个抓取会话获取1000个网址 bin/nutch fetch $s1 -threads 100 -topN 1000 它抓了超过1000个url我不知道它发生了什么可以告诉我怎样才能在nutch1.2中每次抓取会话中准确抓取1000个网址

1 个答案:

答案 0 :(得分:0)

从我的头脑中你应该使用

bin/nutch generate ... -topN 1000

Fetch仅使用generate的结果。