我对webscraping有些不理解。
我有一些网址解析数据的问题(我应该多次打开一些网址),但有一个验证码,它会阻止我的IP。
我试图找到解决这个问题的方法。
我看到很多方面:
1)使用代理
2)替换用户代理字符串
首先,我尝试使用代理。我尝试在urllib.urlopen
和
proxy = urllib2.ProxyHandler({some proxy})
opener = urllib2.build_opener(proxy)
urllib2.install_opener(opener)
它没有解决我的问题。我总是遇到错误,几乎总是IOError: [Errno socket error] [Errno 10061] ����������� �� �����������,
,我无法理解,为什么我有这个错误。
我开始尝试另一种方式。
我使用了另一个用户代理字符串,有时候我有requests.exceptions.ConnectionError: ('Connection aborted.', error(10054, ''))
。
但是对于一些网址,它可以在代理服务器不起作用的情况下工作。
我试着理解为什么会发生这种情况,因为用户代理并没有改变我的IP,但是代理应该改变我的IP,但它不起作用。
任何人都可以向我解释这一点并向我提供清楚的信息。