我有一个烧瓶应用程序,其端点使用硒和铬驱动程序。我使用此代码来抓取有角度的网站的网页,创建一个json并将其提供给客户端。
之前,该网站很容易通过使用BeautifulSoup进行抓取,并且我过去将json和put操作的当前时间存储在数据存储区中。这样做的目的是,我不会对每个客户端请求和功能都进行抓取确保在5个小时后才再次刮取网站。
但是现在我必须使用硒,我不认为硒如何打开服务器上的浏览器(因为它需要在我的本地机器上执行任何操作)。我还研究了无头铬的状态,但目前它仅适用于节点.js服务器。
我现在看到的唯一选择是,在网站上每次产生新数据时(即每月的确切日期),在本地计算机上抓取该网站并将json上传到gae数据存储区。 有没有一种方法可以完全自动化该过程?
答案 0 :(得分:0)
我能够在GAE python上运行无头硒,但是我必须在App Engine Flex中做到这一点。看到这个答案:
Python Headless Browser for GAE
“什么需要我的本地计算机执行任何操作”是什么意思?