标签: apache web-crawler nutch
我有一些特定的网址(大约17000个网址),我想运行apache nutch永远抓取,即当它完成所有步骤然后它应该自动重新启动
答案 0 :(得分:1)
脚本文件中的简单while循环怎么样?
for (( ; ; )) do #set variables bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 1 -topN 1000 done
// Linux脚本