Python如何在内部管理'for'循环?

时间:2017-04-04 11:55:15

标签: python for-loop data-structures

我正在尝试学习Python,我开始使用一些代码:

a = [3,4,5,6,7]
for b in a:
    print a
    a.pop(0)

输出是:

[3, 4, 5, 6, 7]
[4, 5, 6, 7]
[5, 6, 7]

我知道,当我在循环上时,一个好的做法会更改数据结构,但我想了解Python在这种情况下如何管理迭代器。

主要问题是:如果我改变a的状态,它如何知道必须完成循环?

4 个答案:

答案 0 :(得分:14)

你不应该这样做的原因恰恰是你不必依赖迭代的实现方式。

但回到这个问题。 Python中的列表是数组列表。它们表示连续的已分配内存块,而不是链接列表,其中每个元素都是独立分配的。因此,Python的列表(如C中的数组)针对随机访问进行了优化。换句话说,从元素n到元素n + 1的最有效方法是直接访问元素n + 1(通过调用mylist.__getitem__(n+1)mylist[n+1])。

因此,列表的__next__(每次迭代调用的方法)的实现就像您期望的那样:当前元素的索引首先设置为0,然后在每次迭代后增加。

在您的代码中,如果您还打印b,您会看到发生这种情况:

a = [3,4,5,6,7]
for b in a:
    print a, b
    a.pop(0)

结果:

[3, 4, 5, 6, 7] 3
[4, 5, 6, 7] 5
[5, 6, 7] 7

因为:

  • 在迭代0,a[0] == 3
  • 在迭代1,a[1] == 5
  • 在迭代2,a[2] == 7
  • 在迭代3中,循环结束(len(a) < 3

答案 1 :(得分:9)

kjaquier和Felix谈到了迭代器协议,我们可以在你的案例中看到它的实际应用:

>>> L = [1, 2, 3]
>>> iterator = iter(L)
>>> iterator
<list_iterator object at 0x101231f28>
>>> next(iterator)
1
>>> L.pop()
3
>>> L
[1, 2]
>>> next(iterator)
2
>>> next(iterator)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
StopIteration

由此我们可以推断出list_iterator.__next__的代码行为类似于:

if self.i < len(self.list):
    return self.list[i]
raise StopIteration

它并不天真地获得该项目。这会引发IndexError,它会冒泡到顶部:

class FakeList(object):
    def __iter__(self):
        return self

    def __next__(self):
        raise IndexError

for i in FakeList():  # Raises `IndexError` immediately with a traceback and all
    print(i)

确实,在the CPython source中查看listiter_next(感谢Brian Rodriguez):

if (it->it_index < PyList_GET_SIZE(seq)) {
    item = PyList_GET_ITEM(seq, it->it_index);
    ++it->it_index;
    Py_INCREF(item);
    return item;
}

Py_DECREF(seq);
it->it_seq = NULL;
return NULL;

虽然我不知道return NULL;最终如何转化为StopIteration

答案 2 :(得分:2)

我们可以通过使用小辅助函数foo轻松查看事件序列:

def foo():
    for i in l:
        l.pop()

dis.dis(foo)查看生成的Python字节码。剪掉不那么相关的操作码,你的循环执行以下操作:

          2 LOAD_GLOBAL              0 (l)
          4 GET_ITER
    >>    6 FOR_ITER                12 (to 20)
          8 STORE_FAST               0 (i)

         10 LOAD_GLOBAL              0 (l)
         12 LOAD_ATTR                1 (pop)
         14 CALL_FUNCTION            0
         16 POP_TOP
         18 JUMP_ABSOLUTE            6

也就是说,它获取给定对象的iteriter(l)列表的专用迭代器对象)并循环直到FOR_ITER表示是时候停止。添加多汁的部分,这是FOR_ITER的作用:

PyObject *next = (*iter->ob_type->tp_iternext)(iter);

基本上是:

list_iterator.__next__()

this(最后 * )进入listiter_next,在检查期间使用原始序列l执行索引检查@Alex。

if (it->it_index < PyList_GET_SIZE(seq))

当失败时,返回NULL,表示迭代已完成。与此同时,设置了StopIteration异常,该异常在FOR_ITER操作码代码中被静默抑制:

if (!PyErr_ExceptionMatches(PyExc_StopIteration))
    goto error;
else if (tstate->c_tracefunc != NULL)
    call_exc_trace(tstate->c_tracefunc, tstate->c_traceobj, tstate, f);
PyErr_Clear();  /* My comment: Suppress it! */

因此,无论您是否更改列表,listiter_next中的签入将最终失败并执行相同的操作。

*对于任何想知道的人来说,listiter_next是一个描述符,所以有一个小函数包装它。在这种特定情况下,该函数为wrap_next,当PyExc_StopIteration返回listiter_next时,请务必将NULL设置为例外。

答案 3 :(得分:1)

AFAIK,for循环使用迭代器协议。您可以按如下方式手动创建和使用迭代器:

In [16]: a = [3,4,5,6,7]
    ...: it = iter(a)
    ...: while(True):
    ...:     b = next(it)
    ...:     print(b)
    ...:     print(a)
    ...:     a.pop(0)
    ...:
3
[3, 4, 5, 6, 7]
5
[4, 5, 6, 7]
7
[5, 6, 7]
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
<ipython-input-16-116cdcc742c1> in <module>()
      2 it = iter(a)
      3 while(True):
----> 4     b = next(it)
      5     print(b)
      6     print(a)

如果迭代器耗尽,则for循环停止(引发StopIteration)。