我想从一个按时间间隔刷新的列表中一次提取一个代理,我对此没有任何问题。
有些代理不好,我希望使用列表中的下一个代理。这是我的生成器进入的地方,但是,我可以通过第一次调用.next()来获得生成器,第二次调用它时,我得到相同的值!
显然,我必须错过了解生成器如何工作的关键部分。
我的生成器代码在ProxyHandler
类中:
class ProxyHandler:
def __init__(self):
self.proxies = list()
self.current = dict()
def get_proxies(self):
""" Retrieves proxies """
def __len__(self):
return len(self.proxies)
def yield_proxy(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies() # This populates self.proxies which is a list of tuples where the 0th element is the host and the 1st element is the port
for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()
用法:
def get_response(self, url):
proxy = self.proxy_handler.current
if proxy == {}:
proxy = self.proxy_handler.yield_proxy().next()
print 'Current proxy -', proxy
response = url_request(url, proxy=proxy) # url_request() is basically a modified version of python's requests
print response
if response: # url_request() returns true if status code == 200
return response, proxy
gen = self.proxy_handler.yield_proxy()
gen.next()
return self.get_ebay_response(url)
答案 0 :(得分:2)
您每次都重新创建生成器:
gen = self.proxy_handler.yield_proxy()
gen.next()
新的发电机从一开始就开始;单独的发电机不共享状态。将生成器存储在某处,然后重用该对象以获取新值。
您可以将该生成器对象存储为self
上的属性:
proxy_generator = None
def get_response(self, url):
if not self.proxy:
if self.proxy_generator is None
self.proxy_generator = self.proxy_handler.yield_proxy()
self.proxy = next(self.proxy_generator)
proxy = self.proxy
我使用next()
function使您的代码与Python 3保持向前兼容(您必须迟早切换到,Python 2现在是一种遗留语言)。
接下来,您的生成器会尝试捕获一个永远不会被抛出的异常:
for p in self.proxies:
try:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
except StopIteration:
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
yield self.yield_proxy()
在try
中,没有访问任何生成器;你把这个工作交给了for
上的self.proxies
循环,for
已经知道如何处理迭代器(它会抓住StopIterator
来结束循环)。而self.proxies
无论如何只是一个列表。
如果您想在代理上循环,请在无尽的while True
循环中执行此操作:
while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])} # Formatted to python's request lib proxy format
self.current = proxy
yield proxy
print 'Reached end of proxy list'
self.current = {}
self.get_proxies()
我不确定为什么你认为你需要在那里清除self.current
并重新获取代理。您的发电机上的元组从未改变过,为什么要重新取出?即使您从顶部再次启动循环,您当前的代理仍然有效。我放弃了最后三行。
您可以进一步简化代码。生成器没有长度,因此不需要__len__
方法。该方法最好产生错误的信息;在开始迭代之前,您的self.proxies
属性为空,因此您的对象的长度为0。完全放弃该方法。
接下来,您可以为对象提供生成生成器的__iter__
方法:
class ProxyHandler:
def __init__(self):
self.proxies = []
self.current = {}
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
while True:
for p in self.proxies:
proxy = {'http': 'http://%s:%s' % (p[0], p[1])}
self.current = proxy
yield proxy
这会使整个ProxyHandler
实例成为可迭代的,只需使用iter(self.proxy_handler)
代替self.proxy_handler.yield_proxy()
即可让生成器生成所有这些值。
最后但并非最不重要的是,您可以将整个事物的生成器表达式与itertools.cycle()
一起使用,以使迭代器无穷无尽。但是,您必须删除current
属性,但这并不重要,因为当您的生成器只生成当前对象 时,您实际上并不需要该属性:
from itertools import cycle
class ProxyHandler:
def __init__(self):
self.proxies = []
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
if not self.proxies:
print 'Created new proxy list'
self.get_proxies()
return cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
生成器表达式生成相同类型的对象。
这仍需要iter(self.proxy_generator)
;您可以通过__iter__
返回self
并添加next()
方法来创建实例迭代器(而不是可迭代);在第一次调用时将上面的生成器表达式移动到属性,然后将next()
调用传递给它以生成值:
class ProxyHandler:
def __init__(self):
self.proxies = []
self._gen = None
def get_proxies(self):
""" Retrieves proxies """
def __iter__(self):
return self
def next(self):
if not self._gen:
self.get_proxies()
self._gen = cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
return next(self._gen)
__next__ = next # Python 3 compatibility
现在你可以每次使用`next(self.proxy_handler):
def get_response(self, url):
if not self.proxy:
self.proxy = next(self.proxy_handler)
proxy = self.proxy