Question

我在尝试网络抓取以下网站时遇到了一些问题：

http://apps.fas.usda.gov/psdonline/psdquery.aspx

问题在于它是框架，aspx和javascript的组合。

我试图在stackoverflow上使用各种示例作为扶手，但无法使其工作。到目前为止我有这个，至少打印出表格的正确框架。

import mechanize

url = 'http://apps.fas.usda.gov/psdonline/psdQueryFrameDisplay.aspx'
# url = 'http://apps.fas.usda.gov/psdonline/psdResult.aspx'

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open(url)

response = br.response().read()

print response

我需要输入不同的值，但需要一个起点，'小麦'，'生产'，'所有国家'，'2013'

然后点击运行查询。

这会产生一个很长的网页，然后我想要解析成一个数据帧。如果我可以导航aspx和JS来到这里，那么最后一步是相对简单的。

Python ASPX Javascript网页抓取

0 个答案: