Python-request_html屏幕抓取

时间:2018-07-17 14:45:04

标签: python web-scraping python-requests-html

我正尝试登录到一个非常复杂的网站(对我的初学者而言)并进行预订。在启动项目之前,不知道单个python语句。经过多次启动和停止后,已使用requests_html / HTMLSession成功登录。克服了安全性/授权问题并到达目标页面。该页面在其上显示服务器时间,直到时间到7:00 AM我才能敲正确的键。 我无法进入该领域。我已经尝试过.search和.find命令,但是什么也没有。我希望有人可以告诉我如何将时间下载到我的程序中,这样我就可以测试时间,等到时间达到或几乎达到7:00。 (我说这几乎是因为预留时间是开球时间,真正的紧缩点是7 –该应用程序的重点是使流程自动化并做到最快!)

所以我需要能够将时间加载到python中,并在时钟达到7:00时单击一个日期文件。

2 个答案:

答案 0 :(得分:0)

不知道您使用的是哪种抓取工具,但通常您会通过xpath或CSS选择器访问此元素:

response.css(".jquery_server_clock::text").extract()

此示例是如果您使用的是scrapy

答案 1 :(得分:0)

也许最好使用selenium

Selenium允许您自动执行浏览器窗口,因此可能无法使用请求与网站进行交互,但是使用硒时,您访问的网站认为您使用的是普通浏览器,但是您可以使所有操作自动化。

如果我是你,我该怎么办:

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("your_url.com")

input("Navigate to the desired page, then press enter")

while not driver.find_element_by_class_name("jquery_server_clock").text[0] == "7":
    pass

driver.find_element_by_class_name("other_button").click()

这将一直等到上午7点,然后立即单击另一个按钮。