最后一次检查外部弹出帐户时抓取gmail,并检查它们是否超过自上次检查以来的X时间

时间:2011-07-10 04:16:36

标签: javascript python screen-scraping web-scraping

目标: 开发一个脚本,用于检查我的外部流行帐户最后一次被谷歌检查 - 而不是登录。如果时间超过一定数量,请检查弹出帐户。

我的理由: 我使用离线客户端。我不想登录到Gmail,我希望所有外部电子邮件都通过Gmail发送。有时会收到重要的电子邮件,我必须登录gmail,转到帐户部分,然后点击“检查电子邮件”。这令人非常恼火。我希望他们能够以指定的频率轮询pop帐户。相反,他们使用的算法范围为1分钟到1小时。

到目前为止

我的方法: 所以我可以使用curl登录gmail。我可以刮掉页面。问题是谷歌使用javascript / ajax善良,所以curl确实获得了gmail的html版本,而且该版本没有我正在寻找的信息。它仅适用于ajax版本的gmail。

我可以使用selenium,但基本上我必须打开firefox。我不希望这样。我想要一个可以在后台运行的解决方案,每10分钟检查一次。

我怀疑如何解决这个问题: 我已经看过几篇关于使用具有javascript功能的无头浏览器的帖子。显然,其中一些可以使用python进行控制。然而,这似乎相当复杂。

因此,我的问题 解决问题的最佳方法是什么?我的偏好是使用python,但我也对其他语言开放。我是否必须使用javascript来完成此任务?是否需要无头浏览器还是有其他替代方案?

谢谢。

gmail pop account check

1 个答案:

答案 0 :(得分:1)

可能http://www.phantomjs.org/将成为这项工作的最佳工具。他们在github存储库中有很多关于如何做这类事情的例子。人们在复杂的刮削任务中取得了很大的成功。