使用javascript:__ doPostBack href在Python中单击并抓取链接

时间:2014-10-22 20:32:06

标签: javascript python-2.7 web-scraping

我希望使用Python 2.7从政府网站下载数千条记录的数据。记录的一个示例是http://camara.cl/pley/pley_detalle.aspx?prmID=1252&prmBL=1-07。两个相关的问题:

(1)该网站依赖鼠标点击(在源代码中: <a href="javascript:__doPostBack(&#39;ctl00$mainPlaceHolder$btnUrgencias&#39;,&#39;&#39;)">Urgencias</a>访问我感兴趣的另一部分数据;和

(2)我一般都是网络抓取的文盲,尤其是Python。

到目前为止,边做边学已经让我走了一半路。互联网资源hereherehere促使我朝着正确的方向前进。但我撞墙了。

我可以获取调用url时填充屏幕的信息的源代码。

import requests
id = '1252'
bl = '1-07'
url = 'http://camara.cl/pley/pley_detalle.aspx'
parametros = {'prmID': id, 'prmBL': bl}

r = requests.get(url, params = parametros)
hitos = r.text
print hitos

但是我从“Urgencias”标签获取信息方面没有成功。因此,一次尝试

import json
parametros = {'prmID': id, 'prmBL': bl, '__EVENTTARGET': 'ctl00$mainPlaceHolder$btnUrgencias'}
headers = {'content-type': 'application/x-www-form-urlencoded; charset=utf-8'}

p = requests.post(url, data = json.dumps(parametros), headers = headers)
urgencias = p.text
print urgencias

我显然没有正确构建/发送请求。 (我相信,我也错过了饼干。)

任何帮助都将非常赞赏。 (我可以使用任何可以在Ubuntu机器上运行的方法!)

0 个答案:

没有答案