Urlretrieve和用户代理? - Python

时间:2010-03-02 16:08:16

标签: python urllib

我正在使用urllib模块中的urlretrieve。

我似乎无法找到如何在我的请求中添加用户代理描述。


urlretrieve有可能吗?或者我需要使用其他方法吗?

5 个答案:

答案 0 :(得分:7)

首先,设置版本:

urllib.URLopener.version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36 SE 2.X MetaSr 1.0'

然后:

filename, headers = urllib.urlretrieve(url)

答案 1 :(得分:4)

您可以使用URLopener或FancyURLopener类。 'version'参数指定了opener对象的用户代理。

opener = FancyURLopener({}) 
opener.version = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.69 Safari/537.36'
opener.retrieve('http://example.com', 'index.html')

答案 2 :(得分:2)

我认为urlretrieve不可能 - 至少不容易。我建议创建一个urllib2.Request对象并将所需的标头传递给它。参见

http://docs.python.org/library/urllib2.html#urllib2.urlopen

例如。

答案 3 :(得分:2)

我知道这个问题已存在了7年。我通过尝试找出如何在使用User-Agent函数时更改urlretrieve来解决此问题。

对于那些没有运气到达这个问题的人来说,我就是这样做的:

    # proxy = ProxyHandler({'http': 'http://192.168.1.31:8888'})
    proxy = ProxyHandler({})
    opener = build_opener(proxy)
    opener.addheaders = [('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30')]
    install_opener(opener)

    result = urlretrieve(url=file_url, filename=file_name)

我添加代理的原因是为了监控Charles的流量,这是我得到的流量:

See the User-Agent

答案 4 :(得分:0)

这样的东西不使用 urllib tho,为我工作了一个刮板

import requests

imageURL='http://image.jpg'
headers={'user-agent': 'Mozilla/5.0'}
r=requests.get(imageURL, headers=headers)
with open('image.jpg', 'wb') as f:
    f.write(r.content)