点击网站上的按钮然后抓取网页

时间:2014-11-09 00:23:26

标签: python onclick click web-scraping screen-scraping

我有一个网站我想点击一个按钮然后用python抓取网站按钮之间的html代码是:

 <span id="exchange-testing" class="exchange-input nav-link" data track="&amp;lid=testing&amp;lpos=site_settings" data-value="testing">Testing</span>

这可能吗?我能够从页面中删除所需的所有数据,但我需要先点击按钮。

任何帮助将不胜感激

2 个答案:

答案 0 :(得分:12)

基本上,您有两种选择:

  • 高级方法:使用selenium自动化真实浏览器,或者换句话说,让浏览器重复所有用户操作,以便使用想要的数据。

  • 低级别方法:当您点击按钮时,调查底层发生的事情 - 探索&#34;网络&#34;浏览器开发人员工具的选项卡,并查看正在进行的请求。然后,在你的刮刀中模拟它们。在这里,您可以考虑使用requestsmechanize等工具发出请求,处理抓取会话,提交表单等以及BeautifulSouplxml.html等工具进行html解析。此外,必须看到Scrapy网页抓取框架。

答案 1 :(得分:0)

如果有要单击的按钮,然后刮一下,然后执行以下操作:

  1. 检查按钮元素。单击该按钮后将打开的链接将始终位于您打开的html中。
  2. 抓取此链接并执行request.get(link)。这相当于单击按钮。

但是当按钮需要激活一些应该在单击元素时运行的js函数时,这不适用。