Python ASPX Javascript网页抓取

时间:2016-04-20 14:35:52

标签: javascript python asp.net web-scraping

我在尝试网络抓取以下网站时遇到了一些问题:

http://apps.fas.usda.gov/psdonline/psdquery.aspx

问题在于它是框架,aspx和javascript的组合。

我试图在stackoverflow上使用各种示例作为扶手,但无法使其工作。到目前为止我有这个,至少打印出表格的正确框架。

import mechanize

url = 'http://apps.fas.usda.gov/psdonline/psdQueryFrameDisplay.aspx'
# url = 'http://apps.fas.usda.gov/psdonline/psdResult.aspx'

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open(url)

response = br.response().read()

print response

我需要输入不同的值,但需要一个起点,'小麦','生产','所有国家','2013'

然后点击运行查询。

这会产生一个很长的网页,然后我想要解析成一个数据帧。如果我可以导航aspx和JS来到这里,那么最后一步是相对简单的。

0 个答案:

没有答案