刮动态网页(ASPX)

时间:2015-06-21 13:38:19

标签: python ajax web-crawler

我想抓住土耳其超级联赛中的所有比赛细节。 数据位于:http://www.mackolik.com/Standings/Default.aspx?sId=3170

点击“Fikstür”,然后选择“Hafta”。 Fikstür意味着Fixture和Hafta意味着土耳其语周。

在此页面中,当您将鼠标悬停在分数上时,每周都有匹配ID。即,当您选择Hafta = 1且匹配ID为“Genclerbirliği-Adaletspor”时为342212。

所以,第一份工作是收集所有匹配ID。 当我想完全获得这些id时,我检查了所有元素。一个月前,我可以从www.mackolik.com/AjaxHandlers/FixtureHandler.aspx?command=getMatches&id=3170&week=11获得匹配ID,可以通过网络获取。

但是当我进入那里时,我收到一条消息“403 Forbidden error”。但所有的ids都在这里。我怎样才能获得这些匹配ID或处理问题?

我正在使用Python。

1 个答案:

答案 0 :(得分:1)

我找到了我的解决方案:

import mechanize
from lxml import html as lh
import requests

br = mechanize.Browser()
page=br.open("http://www.mackolik.com/Standings/Default.aspx?sId=3170")
head=page.info().headers
response = requests.get('http://www.mackolik.com/AjaxHandlers/FixtureHandler.aspx?command=getMatches&id=3170&week=1', headers=head)
response.text