可以在Python中重置迭代器吗?

时间:2010-07-16 15:00:48

标签: python iterator generator

我可以在Python中重置迭代器/生成器吗?我正在使用DictReader,并希望将其重置(从csv模块)到文件的开头。

16 个答案:

答案 0 :(得分:69)

我看到许多答案暗示itertools.tee,但这忽略了文档中的一个重要警告:

  

这个itertool可能需要很多   辅助存储(取决于如何   需要很多临时数据   存储)。一般来说,如果一个迭代器   之前使用大部分或全部数据   另一个迭代器启动,它更快   使用list()代替tee()

基本上,tee是针对一个迭代器的两个(或更多)克隆,而彼此“不同步”的情况而设计的,不是 > - 相反,他们说在同一个“附近”(一些项目背后或相互提前)。不适合OP的“从一开始就重做”的问题。

另一方面,

L = list(DictReader(...))非常合适,只要序列表可以很好地适应记忆。可以随时使用iter(L)创建一个新的“迭代器从头开始”(非常轻量级和低开销),并且部分或全部使用而不会影响新的或现有的;其他访问模式也很容易获得。

正如一些答案正确地指出的那样,在csv的特定情况下,您还可以.seek(0)基础文件对象(一个相当特殊的情况)。我不确定它是否有记录和保证,但它目前有效;它可能值得考虑仅用于真正巨大的csv文件,其中我推荐list作为一般方法会有太大的内存占用。

答案 1 :(得分:29)

如果你有一个名为'blah.csv'的csv文件,看起来像是

a,b,c,d
1,2,3,4
2,3,4,5
3,4,5,6

你知道你可以打开文件进行阅读,并用

创建一个DictReader
blah = open('blah.csv', 'r')
reader= csv.DictReader(blah)

然后,您将能够获得reader.next()的下一行,该行应输出

{'a':1,'b':2,'c':3,'d':4}

再次使用它会产生

{'a':2,'b':3,'c':4,'d':5}

但是,此时如果您使用blah.seek(0),则下次拨打reader.next()时,您将获得

{'a':1,'b':2,'c':3,'d':4}

试。

这似乎是您正在寻找的功能。我确信这种方法有一些与我不了解的技巧有关。 @Brian建议简单地创建另一个DictReader。如果您的第一个读者在读取文件的一半时,这将无法工作,因为您的新读者将从文件中的任何位置获得意外的键和值。

答案 2 :(得分:21)

没有。 Python的迭代器协议非常简单,只提供一个方法(.next()__next__()),而且通常没有方法来重置迭代器。

常见的模式是再次使用相同的过程创建一个新的迭代器。

如果你想“保存”迭代器以便你可以回到它的开头,你也可以使用itertools.tee

来分叉迭代器

答案 3 :(得分:10)

使用上面的Alex Martelli和Wilduck提倡的.seek(0)有一个错误,即下一次调用.next()将以{key1:key1的形式为您提供标题行的字典, key2:key2,...}。解决方法是跟随file.seek(0)调用reader.next()来删除标题行。

所以你的代码看起来像这样:

f_in = open('myfile.csv','r')
reader = csv.DictReader(f_in)

for record in reader:
    if some_condition:
        # reset reader to first row of data on 2nd line of file
        f_in.seek(0)
        reader.next()
        continue
    do_something(record)

答案 4 :(得分:10)

,如果您使用numpy.nditer来构建迭代器。

>>> lst = [1,2,3,4,5]
>>> itr = numpy.nditer([lst])
>>> itr.next()
1
>>> itr.next()
2
>>> itr.finished
False
>>> itr.reset()
>>> itr.next()
1

答案 5 :(得分:4)

这可能与原始问题正交,但可以将迭代器包装在返回迭代器的函数中。

def get_iter():
    return iterator

要重置迭代器,只需再次调用该函数。 如果函数没有参数,那么这当然是微不足道的。

如果函数需要一些参数,请使用functools.partial创建一个可以传递而不是原始迭代器的闭包。

def get_iter(arg1, arg2):
   return iterator
from functools import partial
iter_clos = partial(get_iter, a1, a2)

这似乎避免了tee(n份)或列表(1份)需要执行的缓存

答案 6 :(得分:2)

虽然没有迭代器重置,但python 2.6(及更高版本)中的“itertools”模块有一些可以帮助它的实用程序。 其中一个是“tee”,可以制作迭代器的多个副本,并缓存前面运行的结果,以便在副本上使用这些结果。我会为你的目的而努力:

>>> def printiter(n):
...   for i in xrange(n):
...     print "iterating value %d" % i
...     yield i

>>> from itertools import tee
>>> a, b = tee(printiter(5), 2)
>>> list(a)
iterating value 0
iterating value 1
iterating value 2
iterating value 3
iterating value 4
[0, 1, 2, 3, 4]
>>> list(b)
[0, 1, 2, 3, 4]

答案 7 :(得分:1)

对于小文件,您可以考虑使用more_itertools.seekable - 提供重置迭代功能的第三方工具。

<强>演示

import csv

import more_itertools as mit


filename = "data/iris.csv"
with open(filename, "r") as f:
    reader = csv.DictReader(f)
    iterable = mit.seekable(reader)                    # 1
    print(next(iterable))                              # 2
    print(next(iterable))
    print(next(iterable))

    print("\nReset iterable\n--------------")
    iterable.seek(0)                                   # 3
    print(next(iterable))
    print(next(iterable))
    print(next(iterable))

输出

{'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
{'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
{'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}

Reset iterable
--------------
{'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
{'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
{'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}

此处DictReader包含在seekable对象(1)和高级(2)中。 seek()方法用于将迭代器重置/倒回到第0位(3)。

注意:内存消耗会随着迭代而增长,因此请谨慎使用此工具来处理大型文件,如indicated in the docs

答案 8 :(得分:1)

问题

之前我遇到过同样的问题。在分析了我的代码之后,我意识到尝试重置循环内部的迭代器会略微增加时间复杂度,这也会使代码变得有点难看。

解决方案

打开文件并将行保存到内存中的变量。

# initialize list of rows
rows = []

# open the file and temporarily name it as 'my_file'
with open('myfile.csv', 'rb') as my_file:

    # set up the reader using the opened file
    myfilereader = csv.DictReader(my_file)

    # loop through each row of the reader
    for row in myfilereader:
        # add the row to the list of rows
        rows.append(row)

现在,您可以在范围内的任何位置遍历 rows ,而无需处理迭代器。

答案 9 :(得分:1)

在“ iter()”调用期间的最后一次迭代中返回新创建的迭代器

class ResetIter: 
  def __init__(self, num):
    self.num = num
    self.i = -1

  def __iter__(self):
    if self.i == self.num-1: # here, return the new object
      return self.__class__(self.num) 
    return self

  def __next__(self):
    if self.i == self.num-1:
      raise StopIteration

    if self.i <= self.num-1:
      self.i += 1
      return self.i


reset_iter = ResetRange(10)
for i in reset_iter:
  print(i, end=' ')
print()

for i in reset_iter:
  print(i, end=' ')
print()

for i in reset_iter:
  print(i, end=' ')

输出:

0 1 2 3 4 5 6 7 8 9 
0 1 2 3 4 5 6 7 8 9 
0 1 2 3 4 5 6 7 8 9 

答案 10 :(得分:0)

仅当基础类型提供了这样做的机制(例如fp.seek(0))。

答案 11 :(得分:0)

对于DictReader:

f = open(filename, "rb")
d = csv.DictReader(f, delimiter=",")

f.seek(0)
d.__init__(f, delimiter=",")

对于DictWriter:

f = open(filename, "rb+")
d = csv.DictWriter(f, fieldnames=fields, delimiter=",")

f.seek(0)
f.truncate(0)
d.__init__(f, fieldnames=fields, delimiter=",")
d.writeheader()
f.flush()

答案 12 :(得分:0)

list(generator())返回生成器的所有剩余值,如果没有循环,则会有效地重置它。

答案 13 :(得分:0)

可能的选择是使用itertools.cycle(),这样可以无限期地进行迭代,而无需使用.seek(0)之类的技巧

iterDic = itertools.cycle(csv.DictReader(open('file.csv')))

答案 14 :(得分:0)

我也遇到了同样的问题-虽然我喜欢tee()解决方案,但我不知道我的文件有多大,并且内存警告关于先消耗一个文件然后再将另一个文件放入我不采用那种方法

相反,我将使用iter()语句创建一对迭代器,并将第一个迭代器用于我的初始遍历,然后切换到第二个迭代器以进行最终运行。

因此,对于字典读取器,如果使用以下方式定义读取器:

d = csv.DictReader(f, delimiter=",")

我可以根据此“规范”创建一对迭代器-使用:

d1, d2 = iter(d), iter(d)

然后,我可以对d1运行我的第一遍代码,这是安全的,因为第二个迭代器d2是从相同的根规范中定义的。

我还没有对它进行详尽的测试,但是它似乎可以处理伪数据。

答案 15 :(得分:0)

最简单的解决方案:使用 deepcopy

from copy import deepcopy
iterator = your_iterator

# Start iteration
iterator_altered = deepcopy(iterator)
for _ in range(2):
    a = next(iter(iterator_altered))

# Your iterator is still unaltered. 

我认为这是最简单的方法。