如何让Apache Nutch永远爬行

时间:2014-11-06 04:50:01

标签: apache web-crawler nutch

我有一些特定的网址(大约17000个网址),我想运行apache nutch永远抓取,即当它完成所有步骤然后它应该自动重新启动

1 个答案:

答案 0 :(得分:1)

脚本文件中的简单while循环怎么样?

for (( ; ; ))
do
#set variables
bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 1 -topN 1000
done

// Linux脚本