如何在一个python可迭代的同时拥有多个迭代器?

时间:2017-10-25 20:43:12

标签: python python-3.x for-loop combinatorics itertools

我想将可迭代对象中的所有元素相互组合进行比较。以下可重现的示例仅模仿普通列表的功能,但演示了我的问题。在这个例子中有一个[" A"," B"," C"," D"]的列表,我想得到以下16行输出,每个项目的每个组合相互之间。 100个项目的列表应该生成100 * 100 = 10,000行。

A A True
A B False
A C False
... 10 more lines ...
D B False
D C False
D D True

以下代码似乎应该可以胜任。

class C():
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        self.idx = 0
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.stuff):
            raise StopIteration
        else:
            return self.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

但是在完成y循环后,x循环似乎也完成了,即使它只使用了迭代中的第一项。

A A True
A B False
A C False
A D False

经过多次搜索,我最终尝试了以下代码,希望itertools.tee允许我在相同的数据上使用两个独立的迭代器:

import itertools
thing = C()
thing_one, thing_two = itertools.tee(thing)
for x in thing_one:
    for y in thing_two:
        print(x, y, x==y)

但我得到了和以前一样的输出。

这代表的真实世界对象是一个目录和文件结构的模型,它具有不同数量的文件和子目录,在树的不同深度。它有成千上万个成员的嵌套链接,并在它们上面正确迭代一次,就像这个例子一样。但是,根据需要进行比较时,它还会在其许多内部对象中进行昂贵的处理,如果我必须在迭代之前制作完整的副本,最终会使工作量加倍。我真的想使用多个迭代器,如果可能的话,指向包含所有数据的单个对象。

编辑答案:在所有答案中指出的问题代码中的关键缺陷是单个内部self.idx变量无法独立处理多个调用者。接受的答案对我的真实课程来说是最好的(在这个可重复的例子中过于简化),另一个答案为简单的数据结构提供了一个简单,优雅的解决方案,如此处列出的列表。

2 个答案:

答案 0 :(得分:2)

实际上不可能创建一个容器类,它是它自己的迭代器。容器不应该知道迭代器的状态,并且迭代器不需要知道容器的内容,它只需要知道哪个对象是相应的容器而且" where&#34 ;它是。如果混合迭代器和容器,不同的迭代器将彼此共享状态(在您的情况下为self.idx),这将不会给出正确的结果(它们读取并修改相同的变量)。

这就是为什么所有内置类型都有一个单独的迭代器类(甚至有些类型都有反向迭代器类)的原因:

>>> l = [1, 2, 3]
>>> iter(l)
<list_iterator at 0x15e360c86d8>
>>> reversed(l)
<list_reverseiterator at 0x15e360a5940>

>>> t = (1, 2, 3)
>>> iter(t)
<tuple_iterator at 0x15e363fb320>

>>> s = '123'
>>> iter(s)
<str_iterator at 0x15e363fb438>

所以,基本上你可以在iter(self.stuff)中返回__iter__并完全删除__next__,因为list_iterator知道如何遍历列表:

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return iter(self.stuff)

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

打印16行,与预期一样。

如果您的目标是创建自己的迭代器类,则需要两个类(如果您想自己实现反向迭代器,则需要3个类)。

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reversed_iterator(self)

class C_iterator:
    def __init__(self, parent):
        self.idx = 0
        self.parent = parent
    def __iter__(self):
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.parent.stuff):
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

也可以。

为了完整性,这里有一个反向迭代器的可能实现:

class C_reversed_iterator:
    def __init__(self, parent):
        self.parent = parent
        self.idx = len(parent.stuff) + 1
    def __iter__(self):
        return self
    def __next__(self):
        self.idx -= 1
        if self.idx <= 0:
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in reversed(thing):
    for y in reversed(thing):
        print(x, y, x==y)

您可以使用生成器,而不是定义自己的迭代器。另一种方法已经在另一个答案中显示出来了:

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        yield from self.stuff
    def __reversed__(self):
        yield from self.stuff[::-1]

或明确委托给一个生成器函数(实际上它与上面的内容相同,但可能更清楚它是一个新的对象):

def C_iterator(obj):
    for item in obj.stuff:
        yield item

def C_reverse_iterator(obj):
    for item in obj.stuff[::-1]:
        yield item

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reverse_iterator(self)

注意:您不必实现__reversed__迭代器。这只是作为额外的&#34;功能&#34;答案。

答案 1 :(得分:1)

你的__iter__完全被打破了。它不是在每次调用时实际创建一个新的迭代器,而只是重置self上的某个状态并返回self。这意味着你实际上不能在对象上实际拥有多个迭代器,并且在对象上的另一个循环处于活动状态时对__iter__的任何调用都将干扰现有循环。

您需要实际制作一个新对象。最简单的方法是使用yield语法编写生成器函数。生成器函数每次都会自动返回一个新的迭代器对象:

class C(object):
    def __init__(self):
        self.stuff = ['A', 'B', 'C', 'D']
    def __iter__(self):
        for thing in self.stuff:
            yield thing