Question

我正在开发一个python程序，它可以从网页中抓取数据（公共数据）。问题是当我想获得一个可以使用按钮访问的网页的源代码时，它基于ASP.NET。我不能像往常一样从页面解析href。

所以我的问题是：有没有一种简单的方法来获取ASP.NET页面的源代码？

为了清楚地解释我正在附加一个基于ASP.NET的网页：在这种情况下，我想得到当我点击页面中间的“Radiátortopení（1）”时显示的页面的源代码。您可以在父页面上看到我想要模拟的按钮，单击here！

我试图检查这个（父）页面的源代码并查找“Radiátortopení（1）”文本附近的一些网址，但我发现只有这个：

<td class="CatalogCell"><a onclick=" return PathClick('3761801;176564;356239;922141;922488;922507;922508')"><H2 class="CatalogH">Radiátor topení (1)</H2></a></td> 而且我害怕，这不会帮助我。

我正在寻找一种最简单的方法，因为我不是ASP.NET和Javascript的专家。谢谢你的建议！

Answer 1

程序在python中，它提供了链接的html源代码。

import urllib2
from bs4 import BeautifulSoup

link="http://www.example.com"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(link,headers=hdr)

page = urllib2.urlopen(link)
soup = BeautifulSoup(page,'html.parser')

print soup

Python / ASP.NET / Javascript：如何刮取基于ASP.NET的页面

1 个答案: