如何让网络爬虫运行?

时间:2015-05-23 09:04:13

标签: javascript node.js web-crawler

我想在JS中编写自己的网络爬虫。我正在考虑使用node.js解决方案,例如https://www.npmjs.com/package/js-crawler

目标是每10分钟进行一次“抓取” - 所以每10分钟我希望我的抓取工具从网站上获取数据。

我知道我可以写一个无限循环,例如:

var keeRunning = true;
while (keepRunning) {
  // fetch data and process it every 10 minutes
}

如果我一直打开电脑并且我在网站上,这可能会完美无缺。

但是,如果我关闭计算机,我可以想象它将不再起作用。那么,即使计算机关闭,我应该考虑采用什么样的解决方案来保持脚本一直运行?

1 个答案:

答案 0 :(得分:1)

使用CronJobber来安排何时运行脚本(每x分钟,或在设定的时间等)并在某处部署您的应用,以便在服务器上在线托管 永不关闭。有很多这样的解决方案,您可以免费托管您的节点服务器