我在尝试网络抓取以下网站时遇到了一些问题:
http://apps.fas.usda.gov/psdonline/psdquery.aspx
问题在于它是框架,aspx和javascript的组合。
我试图在stackoverflow上使用各种示例作为扶手,但无法使其工作。到目前为止我有这个,至少打印出表格的正确框架。
import mechanize
url = 'http://apps.fas.usda.gov/psdonline/psdQueryFrameDisplay.aspx'
# url = 'http://apps.fas.usda.gov/psdonline/psdResult.aspx'
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open(url)
response = br.response().read()
print response
我需要输入不同的值,但需要一个起点,'小麦','生产','所有国家','2013'
然后点击运行查询。
这会产生一个很长的网页,然后我想要解析成一个数据帧。如果我可以导航aspx和JS来到这里,那么最后一步是相对简单的。