我正在开发一个python程序,它可以从网页中抓取数据(公共数据)。问题是当我想获得一个可以使用按钮访问的网页的源代码时,它基于ASP.NET。我不能像往常一样从页面解析href。
所以我的问题是:有没有一种简单的方法来获取ASP.NET页面的源代码?
为了清楚地解释我正在附加一个基于ASP.NET的网页: 在这种情况下,我想得到当我点击页面中间的“Radiátortopení(1)”时显示的页面的源代码。 您可以在父页面上看到我想要模拟的按钮,单击here!
我试图检查这个(父)页面的源代码并查找“Radiátortopení(1)”文本附近的一些网址,但我发现只有这个:
<td class="CatalogCell"><a onclick=" return PathClick('3761801;176564;356239;922141;922488;922507;922508')"><H2 class="CatalogH">Radiátor topení (1)</H2></a></td>
而且我害怕,这不会帮助我。
我正在寻找一种最简单的方法,因为我不是ASP.NET和Javascript的专家。 谢谢你的建议!
答案 0 :(得分:1)
程序在python中,它提供了链接的html源代码。
import urllib2
from bs4 import BeautifulSoup
link="http://www.example.com"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(link,headers=hdr)
page = urllib2.urlopen(link)
soup = BeautifulSoup(page,'html.parser')
print soup