Python:使用代理和用户代理字符串的主要差异

时间:2016-10-20 09:10:43

标签: python proxy web-scraping urllib2 urllib

我对webscraping有些不理解。 我有一些网址解析数据的问题(我应该多次打开一些网址),但有一个验证码,它会阻止我的IP。 我试图找到解决这个问题的方法。 我看到很多方面: 1)使用代理 2)替换用户代理字符串 首先,我尝试使用代理。我尝试在urllib.urlopen

中使用它
proxy = urllib2.ProxyHandler({some proxy})
opener = urllib2.build_opener(proxy)
urllib2.install_opener(opener)

它没有解决我的问题。我总是遇到错误,几乎总是IOError: [Errno socket error] [Errno 10061] ����������� �� �����������,,我无法理解,为什么我有这个错误。 我开始尝试另一种方式。 我使用了另一个用户代理字符串,有时候我有requests.exceptions.ConnectionError: ('Connection aborted.', error(10054, ''))。 但是对于一些网址,它可以在代理服务器不起作用的情况下工作。 我试着理解为什么会发生这种情况,因为用户代理并没有改变我的IP,但是代理应该改变我的IP,但它不起作用。 任何人都可以向我解释这一点并向我提供清楚的信息。

0 个答案:

没有答案