使用Python来操纵HTTP标头

时间:2013-03-26 23:50:04

标签: python-2.7 automation http-headers urllib2

所以我正在尝试使用Python自动执行508合规性检查。我们网站上有几百页,目前每个人实际上每周都会访问该网站,并尝试手动输入所有网址。下面的UIUC链接检查对referer头的请求,然后返回该站点的评估。我无法得到实际工作的请求。我看了很多,但找不到任何有用的东西。棘手的代码低于和低于错误消息。

def fae(urltofae):
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
#[('Referer': urltofae)]
r = opener.open('http://www.fae.cita.uiuc.edu/evaluate/link/')
print r
fae("http://www.example.com/")

错误:

  File "<stdin>", line 1, in <module>
  File "<stdin>", line 4, in fae
  File "/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/urllib2.py", line 400, in open
    response = self._open(req, data)
  File "/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/urllib2.py", line 418, in _open
    '_open', req)
  File "/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/urllib2.py", line 1207, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/urllib2.py", line 1177, in do_open
    raise URLError(err)
urllib2.URLError: <urlopen error [Errno 8] nodename nor servname provided, or not known>

当我尝试更改referer标头(而不是User-agent)时,即使格式与它没有抱怨的格式相同,我也会得到格式化错误而不是它甚至到达请求对于用户代理。

我仍然是一个新的程序员,所以如果我错过了一些明显的话,我非常抱歉,但我已经尝试了所有我能想到的东西。 提前谢谢,欢呼。


好的,所以我改变了我的策略,并且它有效。不幸的是,我不知道为什么下面的代码工作,上面的东西一直让我错误,但我在google周围看到了几个类似的问题(没有具体的答案),所以我想我应该发布它。

vlz,感谢帮助,欢呼。

def faeRequest2(urltofae):
    r = urllib2.Request('http://fae.cita.illinois.edu/evaluate/link/', headers={'User-agent':'Mozilla/5.0', 'Referer':urltofae})
    c = urllib2.urlopen(r)
    print c.read()

1 个答案:

答案 0 :(得分:1)

我没有看到任何错误。网址是否正确?尝试使用

'http://fae.cita.uiuc.edu/evaluate/link/'

而不是

'http://www.fae.cita.uiuc.edu/evaluate/link/'

后者似乎不会在任何地方领先。