Question

我在https://searchlight.cluen.com/E5/CandidateSearch.aspx有一个ASPX页面，上面有一个表单，我想提交并解析信息。

使用Python的urllib和urllib2我使用正确的标头和用户代理创建了一个post请求。但是生成的html响应不包含预期的结果表。我误解了还是错过了任何明显的细节？

    import urllib
    import urllib2

    headers = {
        'HTTP_USER_AGENT': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.13)         Gecko/2009073022 Firefox/3.0.13',
        'HTTP_ACCEPT': 'text/html,application/xhtml+xml,application/xml; q=0.9,*/*; q=0.8',
        'Content-Type': 'application/x-www-form-urlencoded'
    }
    # obtained these values from viewing the source of https://searchlight.cluen.com/E5/CandidateSearch.aspx
    viewstate = '/wEPDwULLTE3NTc4MzQwNDIPZBYCAg ... uJRWDs/6Ks1FECco='
    eventvalidation = '/wEWjQMC8pat6g4C77jgxg0CzoqI8wgC3uWinQQCwr/ ... oPKYVeb74='
    url = 'https://searchlight.cluen.com/E5/CandidateSearch.aspx'
    formData = (
        ('__VIEWSTATE', viewstate),
        ('__EVENTVALIDATION', eventvalidation),
        ('__EVENTTARGET',''),
        ('__EVENTARGUMENT',''),
        ('textcity',''),
        ('dropdownlistposition',''),
        ('dropdownlistdepartment',''),
        ('dropdownlistorderby',''),
        ('textsearch',''),
    )

    # change user agent
    from urllib import FancyURLopener
    class MyOpener(FancyURLopener):
        version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127         Firefox/2.0.0.11'

    myopener = MyOpener()

    # encode form data in post-request format
    encodedFields = urllib.urlencode(formData)

    f = myopener.open(url, encodedFields)
    print f.info()

    try:
      fout = open('tmp.htm', 'w')
    except:
      print('Could not open output file\n')

    fout.writelines(f.readlines())
    fout.close()

关于这个主题有几个问题是有帮助的（比如how to submit query to .aspx page in python）但是如果可能的话，我会坚持这个并要求额外的帮助。

生成的html页面说我可能需要登录，但aspx页面显示在我的浏览器中而没有任何登录。

以下是info（）的结果：

连接：关闭日期：2011年6月7日星期二17:05:26 GMT 服务器：Microsoft-IIS / 6.0 X-Powered-By：ASP.NET X-AspNet-版本：2.0.50727 缓存控制：私有内容类型：text / html;字符集= utf-8的内容长度：1944

Answer 1

ASP.Net使用安全功能，防止embedding specific information in it.

篡改ViewState

很可能，服务器拒绝了您的请求，因为ViewState被视为被篡改了。我不能绝对肯定地说这个，但ASP.Net有several security features内置于可能阻止直接发布的框架。

如果涉及会话，那么您还需要考虑到这一点。要模拟浏览器正在执行的操作，您需要执行以下步骤：

申请页面。
将Cookie集合保存到变量中。
将ViewState提取为变量。
使用适当的表单值发布，同时传递已保存的Cookie和ViewState信息以及请求。

我知道很多工作，但不是太难。同样，这可能不是您问题的唯一来源，但值得一读，以便开始排除故障。

Answer 2

我尝试了机械化和urllib2，机械化更好地处理cookie。我可以通过使用mechanize指定提交表单：

    browser= mechanize.Browser()
    browser.select_form(form_name)
    browser.set_value("Page$Next", name="pagenumber")

没有必要手动复制post请求，在这种情况下，机械化能够处理依赖于javascript的表单。

将帖子请求提交到aspx页面

2 个答案: