Python / ASP.NET / Javascript:如何刮取基于ASP.NET的页面

时间:2014-07-01 21:02:52

标签: javascript python asp.net web-scraping

我正在开发一个python程序,它可以从网页中抓取数据(公共数据)。问题是当我想获得一个可以使用按钮访问的网页的源代码时,它基于ASP.NET。我不能像往常一样从页面解析href。

所以我的问题是:有没有一种简单的方法来获取ASP.NET页面的源代码?

为了清楚地解释我正在附加一个基于ASP.NET的网页: 在这种情况下,我想得到当我点击页面中间的“Radiátortopení(1)”时显示的页面的源代码。  您可以在父页面上看到我想要模拟的按钮,单击here

我试图检查这个(父)页面的源代码并查找“Radiátortopení(1)”文本附近的一些网址,但我发现只有这个:

<td class="CatalogCell"><a onclick=" return PathClick(&#39;3761801;176564;356239;922141;922488;922507;922508&#39;)"><H2 class="CatalogH">Radiátor topení (1)</H2></a></td> 而且我害怕,这不会帮助我。

我正在寻找一种最简单的方法,因为我不是ASP.NET和Javascript的专家。 谢谢你的建议!

1 个答案:

答案 0 :(得分:1)

程序在python中,它提供了链接的html源代码。

import urllib2
from bs4 import BeautifulSoup

link="http://www.example.com"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(link,headers=hdr)

page = urllib2.urlopen(link)
soup = BeautifulSoup(page,'html.parser')

print soup