如何在使用python进行网页抓取时提供带有规范的request_url

时间:2018-08-13 16:20:58

标签: python-3.x web-scraping

我在url = x的网页上 给出我的偏好设置(如选择选项,..)或单击该网页上的按钮后,该特定网页的URL不会更改。

问题:

在执行上述操作之前,我将不会显示任何数据;但在发布操作后,网页会显示数据。

上下文:

我正在尝试使用python从网页上抓取数据 我为提供上述规范的request_url感到震惊 如果我提供request_url = x,则因为没有提供任何规范而未获取任何数据

在请求网址时如何提供这些规范?

也请介绍按一下按钮的规范

1 个答案:

答案 0 :(得分:0)

听起来像您正在尝试通过真实的导航操作来抓取数据,例如填写表单数据并单击按钮和/或发布一些数据,但要考虑页面中包含的任何javascript脚本,但是您没有相关规范发布数据。

我的方法是使用selenium自动运行真正的浏览器,通过xpath或id查找按钮,然后调用click函数。

driver.get("http://www.google.com")

# Assume the button has the ID "submit" :)
driver.find_element_by_id("submit").click()