如何创建自动每日网页抓取提醒?

时间:2016-11-04 06:02:29

标签: r web-scraping

总结一下 - 我每天早上都会刮掉几个不同的篮球网站,每天早上都可以抓取数据,但是在同一天晚上就会消失。我用rvest和rselenium。有时数据会提前消失,例如在周末如果有早上篮球比赛,那么数据将在比赛结束后一小时消失。对于我正在进行的这个项目,我必须尽我所能尽可能多地获取这些数据。

我有两个问题,我希望得到帮助 - 如果我能回答第一个问题,那么第二个问题可能无关紧要:

  • 无论如何都要进一步自动化抓取,让它们在每天的特定时间自动在我的计算机上运行?我的刮刀工作得很好并且相当稳健,但我仍然需要手动记住每天在正确的时间运行刮刀。
  • 如果不在第一颗子弹上,那么无论如何在每天第一场NBA比赛前一小时每天都会向我的手机发送一个自动提醒?有时候最早的比赛是东部时间晚上7点,其他时间是东部时间(周末)。

感谢对此的任何想法。

1 个答案:

答案 0 :(得分:0)

是的,您可以自动化您的抓取应用程序。只需创建一个24小时运行的调度程序,这将检查每小时的时间。如果你想在凌晨4点开始报废,那么如果它是凌晨4点它将每小时检查一次,那么它将开始报废。通过这种方式,你可以自动化你的报废,甚至你可以设置两个或更多的条件,如果你想在下午6点开始报废,所以你只需要把两个条件放在如下:

if (CurrentTime == "4 AM" || CurrentTime == "6 PM" )
{
    //Start Scrapping 
}

如果您让我知道您正在使用哪种技术,我可以为您提供更多帮助?