Question

我正在尝试学习Python，我开始使用一些代码：

a = [3,4,5,6,7]
for b in a:
    print a
    a.pop(0)

输出是：

[3, 4, 5, 6, 7]
[4, 5, 6, 7]
[5, 6, 7]

我知道，当我在循环上时，不一个好的做法会更改数据结构，但我想了解Python在这种情况下如何管理迭代器。

主要问题是：如果我改变a的状态，它如何知道必须完成循环？

Answer 1

你不应该这样做的原因恰恰是你不必依赖迭代的实现方式。

但回到这个问题。 Python中的列表是数组列表。它们表示连续的已分配内存块，而不是链接列表，其中每个元素都是独立分配的。因此，Python的列表（如C中的数组）针对随机访问进行了优化。换句话说，从元素n到元素n + 1的最有效方法是直接访问元素n + 1（通过调用mylist.__getitem__(n+1)或mylist[n+1]）。

因此，列表的__next__（每次迭代调用的方法）的实现就像您期望的那样：当前元素的索引首先设置为0，然后在每次迭代后增加。

在您的代码中，如果您还打印b，您会看到发生这种情况：

a = [3,4,5,6,7]
for b in a:
    print a, b
    a.pop(0)

结果：

[3, 4, 5, 6, 7] 3
[4, 5, 6, 7] 5
[5, 6, 7] 7

因为：

在迭代0，a[0] == 3。
在迭代1，a[1] == 5。
在迭代2，a[2] == 7。
在迭代3中，循环结束（len(a) < 3）

Answer 2

kjaquier和Felix谈到了迭代器协议，我们可以在你的案例中看到它的实际应用：

>>> L = [1, 2, 3]
>>> iterator = iter(L)
>>> iterator
<list_iterator object at 0x101231f28>
>>> next(iterator)
1
>>> L.pop()
3
>>> L
[1, 2]
>>> next(iterator)
2
>>> next(iterator)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

由此我们可以推断出list_iterator.__next__的代码行为类似于：

if self.i < len(self.list):
    return self.list[i]
raise StopIteration

它并不天真地获得该项目。这会引发IndexError，它会冒泡到顶部：

class FakeList(object):
    def __iter__(self):
        return self

    def __next__(self):
        raise IndexError

for i in FakeList():  # Raises `IndexError` immediately with a traceback and all
    print(i)

确实，在the CPython source中查看listiter_next（感谢Brian Rodriguez）：

if (it->it_index < PyList_GET_SIZE(seq)) {
    item = PyList_GET_ITEM(seq, it->it_index);
    ++it->it_index;
    Py_INCREF(item);
    return item;
}

Py_DECREF(seq);
it->it_seq = NULL;
return NULL;

虽然我不知道return NULL;最终如何转化为StopIteration。

Answer 3

我们可以通过使用小辅助函数foo轻松查看事件序列：

def foo():
    for i in l:
        l.pop()

和dis.dis(foo)查看生成的Python字节码。剪掉不那么相关的操作码，你的循环执行以下操作：

          2 LOAD_GLOBAL              0 (l)
          4 GET_ITER
    >>    6 FOR_ITER                12 (to 20)
          8 STORE_FAST               0 (i)

         10 LOAD_GLOBAL              0 (l)
         12 LOAD_ATTR                1 (pop)
         14 CALL_FUNCTION            0
         16 POP_TOP
         18 JUMP_ABSOLUTE            6

也就是说，它获取给定对象的iter（iter(l)列表的专用迭代器对象）并循环直到FOR_ITER表示是时候停止。添加多汁的部分，这是FOR_ITER的作用：

PyObject *next = (*iter->ob_type->tp_iternext)(iter);

基本上是：

list_iterator.__next__()

this（最后^*）进入listiter_next，在检查期间使用原始序列l执行索引检查@Alex。

if (it->it_index < PyList_GET_SIZE(seq))

当失败时，返回NULL，表示迭代已完成。与此同时，设置了StopIteration异常，该异常在FOR_ITER操作码代码中被静默抑制：

if (!PyErr_ExceptionMatches(PyExc_StopIteration))
    goto error;
else if (tstate->c_tracefunc != NULL)
    call_exc_trace(tstate->c_tracefunc, tstate->c_traceobj, tstate, f);
PyErr_Clear();  /* My comment: Suppress it! */

因此，无论您是否更改列表，listiter_next中的签入将最终失败并执行相同的操作。

^{*对于任何想知道的人来说，listiter_next是一个描述符，所以有一个小函数包装它。在这种特定情况下，该函数为wrap_next，当PyExc_StopIteration返回listiter_next时，请务必将NULL设置为例外。}

Answer 4

AFAIK，for循环使用迭代器协议。您可以按如下方式手动创建和使用迭代器：

In [16]: a = [3,4,5,6,7]
    ...: it = iter(a)
    ...: while(True):
    ...:     b = next(it)
    ...:     print(b)
    ...:     print(a)
    ...:     a.pop(0)
    ...:
3
[3, 4, 5, 6, 7]
5
[4, 5, 6, 7]
7
[5, 6, 7]
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
<ipython-input-16-116cdcc742c1> in <module>()
      2 it = iter(a)
      3 while(True):
----> 4     b = next(it)
      5     print(b)
      6     print(a)

如果迭代器耗尽，则for循环停止（引发StopIteration）。

Python如何在内部管理'for'循环？

4 个答案: