(误)了解发电机

时间:2017-04-30 23:21:39

标签: python python-2.7 recursion python-requests generator

我想从一个按时间间隔刷新的列表中一次提取一个代理,我对此没有任何问题。

有些代理不好,我希望使用列表中的下一个代理。这是我的生成器进入的地方,但是,我可以通过第一次调用.next()来获得生成器,第二次调用它时,我得到相同的值!

显然,我必须错过了解生成器如何工作的关键部分。

我的生成器代码在ProxyHandler类中:

class ProxyHandler:

    def __init__(self):
        self.proxies = list()
        self.current = dict()

    def get_proxies(self):
        """ Retrieves proxies """

    def __len__(self):
        return len(self.proxies)

    def yield_proxy(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()  # This populates self.proxies which is a list of tuples where the 0th element is the host and the 1st element is the port
        for p in self.proxies:
            try:
                proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
                self.current = proxy
                yield proxy
            except StopIteration:
                print 'Reached end of proxy list'
                self.current = {}
                self.get_proxies()
                yield self.yield_proxy()

用法:

def get_response(self, url):
    proxy = self.proxy_handler.current
    if proxy == {}:
        proxy = self.proxy_handler.yield_proxy().next()
    print 'Current proxy -', proxy
    response = url_request(url, proxy=proxy)  # url_request() is basically a modified version of python's requests
    print response
    if response: # url_request() returns true if status code == 200
        return response, proxy
    gen = self.proxy_handler.yield_proxy()
    gen.next()
    return self.get_ebay_response(url)

1 个答案:

答案 0 :(得分:2)

您每次都重新创建生成器:

gen = self.proxy_handler.yield_proxy()
gen.next()

新的发电机从一开始就开始;单独的发电机不共享状态。将生成器存储在某处,然后重用该对象以获取新值。

您可以将该生成器对象存储为self上的属性:

proxy_generator = None

def get_response(self, url):
    if not self.proxy:
        if self.proxy_generator is None
            self.proxy_generator = self.proxy_handler.yield_proxy()
        self.proxy = next(self.proxy_generator)
    proxy = self.proxy

我使用next() function使您的代码与Python 3保持向前兼容(您必须迟早切换到,Python 2现在是一种遗留语言)。

接下来,您的生成器会尝试捕获一个永远不会被抛出的异常:

for p in self.proxies:
    try:
        proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
        self.current = proxy
        yield proxy
    except StopIteration:
        print 'Reached end of proxy list'
        self.current = {}
        self.get_proxies()
        yield self.yield_proxy()

try中,没有访问任何生成器;你把这个工作交给了for上的self.proxies循环,for 已经知道如何处理迭代器(它会抓住StopIterator来结束循环)。而self.proxies无论如何只是一个列表。

如果您想在代理上循环,请在无尽的while True循环中执行此操作:

while True:
    for p in self.proxies:
        proxy = {'http': 'http://%s:%s' % (p[0], p[1])}  # Formatted to python's request lib proxy format
        self.current = proxy
        yield proxy

    print 'Reached end of proxy list'
    self.current = {}
    self.get_proxies()

我不确定为什么你认为你需要在那里清除self.current并重新获取代理。您的发电机上的元组从未改变过,为什么要重新取出?即使您从顶部再次启动循环,您当前的代理仍然有效。我放弃了最后三行。

您可以进一步简化代码。生成器没有长度,因此不需要__len__方法。该方法最好产生错误的信息;在开始迭代之前,您的self.proxies属性为空,因此您的对象的长度为0。完全放弃该方法。

接下来,您可以为对象提供生成生成器的__iter__方法:

class ProxyHandler:
    def __init__(self):
        self.proxies = []
        self.current = {}

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()
        while True:
            for p in self.proxies:
                proxy = {'http': 'http://%s:%s' % (p[0], p[1])} 
                self.current = proxy
                yield proxy

这会使整个ProxyHandler实例成为可迭代的,只需使用iter(self.proxy_handler)代替self.proxy_handler.yield_proxy()即可让生成器生成所有这些值。

最后但并非最不重要的是,您可以将整个事物的生成器表达式与itertools.cycle()一起使用,以使迭代器无穷无尽。但是,您必须删除current属性,但这并不重要,因为当您的生成器只生成当前对象 时,您实际上并不需要该属性:

from itertools import cycle

class ProxyHandler:
    def __init__(self):
        self.proxies = []

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        if not self.proxies:
            print 'Created new proxy list'
            self.get_proxies()
        return cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)

生成器表达式生成相同类型的对象。

这仍需要iter(self.proxy_generator);您可以通过__iter__返回self并添加next()方法来创建实例迭代器(而不是可迭代);在第一次调用时将上面的生成器表达式移动到属性,然后将next()调用传递给它以生成值:

class ProxyHandler:
    def __init__(self):
        self.proxies = []
        self._gen = None

    def get_proxies(self):
        """ Retrieves proxies """

    def __iter__(self):
        return self

    def next(self):
        if not self._gen:
            self.get_proxies()
            self._gen = cycle({'http': 'http://%s:%s' % (p[0], p[1])} for p in self.proxies)
        return next(self._gen)

    __next__ = next  # Python 3 compatibility

现在你可以每次使用`next(self.proxy_handler):

def get_response(self, url):
    if not self.proxy:
        self.proxy = next(self.proxy_handler)
    proxy = self.proxy