使用Google Compute Engine / App Engine进行网页搜寻

时间:2015-02-23 18:48:18

标签: python google-app-engine cron web-scraping google-compute-engine

我编写了一个python脚本,它使用Selenium从网站上抓取信息并将其存储在csv文件中。当我手动执行它时,它在我的本地计算机上运行良好,但我现在想要每小时自动运行一次脚本数周并保护数据库中的数据。运行脚本可能需要大约5-10分钟。

我刚开始使用Google Cloud,看起来有几种方法可以使用Compute Engine或App Engine实现它。到目前为止,我遇到了迄今为​​止我发现的所有三种方式(例如,让计划任务调用我的后端实例的URL并让该实例启动脚本)。我试过:

  • 通过Compute Engine执行脚本并使用数据存储区或云sql。不清楚是否可以轻松设置crontab。
  • 在App Engine上使用任务队列和计划任务。
  • 在App Engine上使用后端实例和预定任务。

我很想知道他们会推荐什么作为最简单和最合适的方式,因为这是一个真正的后端脚本,不需要用户前端。

1 个答案:

答案 0 :(得分:2)

App Engine是可行的,但前提是您将Selenium的使用限制为.remotehttp://crossbrowsertesting.com/这样的网站 - 可行但很麻烦。

我使用计算引擎 - 并且cron在任何Linux映像上使用都很简单,请参阅例如http://www.thegeekstuff.com/2009/06/15-practical-crontab-examples/