在python gae上运行硒?

时间:2018-12-25 22:21:23

标签: python-2.7 selenium google-app-engine

我有一个烧瓶应用程序,其端点使用硒和铬驱动程序。我使用此代码来抓取有角度的网站的网页,创建一个json并将其提供给客户端。

之前,该网站很容易通过使用BeautifulSoup进行抓取,并且我过去将json和put操作的当前时间存储在数据存储区中。这样做的目的是,我不会对每个客户端请求和功能都进行抓取确保在5个小时后才再次刮取网站。

但是现在我必须使用硒,我不认为硒如何打开服务器上的浏览器(因为它需要在我的本地机器上执行任何操作)。我还研究了无头铬的状态,但目前它仅适用于节点.js服务器。

我现在看到的唯一选择是,在网站上每次产生新数据时(即每月的确切日期),在本地计算机上抓取该网站并将json上传到gae数据存储区。 有没有一种方法可以完全自动化该过程?

1 个答案:

答案 0 :(得分:0)

我能够在GAE python上运行无头硒,但是我必须在App Engine Flex中做到这一点。看到这个答案:

Python Headless Browser for GAE

“什么需要我的本地计算机执行任何操作”是什么意思?