我正试图从以下网页中删除一些数据:
College Board - Georgia Institute of Technology
但是我需要访问的信息仅在按下左侧的“应用”选项卡后显示。由于URL没有改变,我如何模拟按下按钮以刮取HTML?
我正在使用Python3.3和请求模块。
答案 0 :(得分:1)
根据页面源,您需要的信息隐藏在javascript代码中,并在点击“应用”链接后进行计算和呈现。
requests
根本无法进行浏览器内用户操作,并且由于单击“正在应用”后没有其他请求,因此如果没有真正的浏览器来运行该js代码,则无法获取数据。 Mechanize也无济于事,因为它无法处理js。
考虑使用selenium(仅供参考,您也可以use a headless PhantomJS browser)。
希望有所帮助。