我目前正在使用cronjob每晚运行一个爬虫,它只能在晚上运行。但我发现有时数据会很大,而且一晚不足以爬行一切。所以我必须在早上6点开始杀死这个过程。我怎样才能杀死使用cronjob杀死爬虫进程?
答案 0 :(得分:1)
取决于您用于抓取的内容,但随着StormCrawler连续运行,您可以通过调用“storm jar ...”命令启动一个cron作业来启动爬网,并使用另一个命令将其杀死风暴杀......“使用Apache Nutch,您可以通过列出当前正在运行的hadoop作业并将其杀死来实现相同的功能。然而,在终止爬行之前让当前迭代完成并解析和索引该段将更加清晰。同样,它取决于您正在使用的爬虫。