Question

我正在寻找一种“浏览”Python迭代器的方法。也就是说，我想用另一个迭代器包装一个给定的迭代器 iter 和 page_size ，这个迭代器将把它作为一系列“页面”从iter返回。每个页面本身都是一个迭代器，最多包含 page_size 次迭代。

我浏览了itertools，我看到的最接近的是itertools.islice。在某些方面，我想要的是itertools.chain的反面 - 而不是将一系列迭代器链接到一个迭代器中，我想将迭代器分解为一系列较小的迭代器。我期待在itertools中找到一个分页功能，但找不到。

我提出了以下寻呼机课程和演示。

class pager(object):
    """
    takes the iterable iter and page_size to create an iterator that "pages through" iter.  That is, pager returns a series of page iterators,
    each returning up to page_size items from iter.
    """
    def __init__(self,iter, page_size):
        self.iter = iter
        self.page_size = page_size
    def __iter__(self):
        return self
    def next(self):
        # if self.iter has not been exhausted, return the next slice
        # I'm using a technique from 
        # https://stackoverflow.com/questions/1264319/need-to-add-an-element-at-the-start-of-an-iterator-in-python
        # to check for iterator completion by cloning self.iter into 3 copies:
        # 1) self.iter gets advanced to the next page
        # 2) peek is used to check on whether self.iter is done
        # 3) iter_for_return is to create an independent page of the iterator to be used by caller of pager
        self.iter, peek, iter_for_return = itertools.tee(self.iter, 3)
        try:
            next_v = next(peek)
        except StopIteration: # catch the exception and then raise it
            raise StopIteration
        else:
            # consume the page from the iterator so that the next page is up in the next iteration
            # is there a better way to do this?
            # 
            for i in itertools.islice(self.iter,self.page_size): pass
            return itertools.islice(iter_for_return,self.page_size)



iterator_size = 10
page_size = 3

my_pager = pager(xrange(iterator_size),page_size)

# skip a page, then print out rest, and then show the first page
page1 = my_pager.next()

for page in my_pager:
    for i in page:
        print i
    print "----"

print "skipped first page: " , list(page1)

我正在寻找一些反馈并提出以下问题：

是否在 itertools 中有一个寻呼机，它正在为我正在忽略的寻呼机提供服务？
克隆self.iter 3次对我来说似乎很笨拙。一个克隆是检查self.iter是否还有其他项目。我决定和a technique Alex Martelli suggested一起去（知道他写了wrapping technique）。第二个克隆是使返回的页面独立于内部迭代器（ self.iter ）。有没有办法避免制作3个克隆？
是否有更好的方法来处理 StopIteration 异常，除了捕获它然后再次提升它？我很想不去捕捉它，让它冒出来。

谢谢！ -Raymond

Answer 1

查看itertools recipes中的grouper()。

Answer 2

你为什么不用这个？

def grouper( page_size, iterable ):
    page= []
    for item in iterable:
        page.append( item )
        if len(page) == page_size:
            yield page
            page= []
    yield page

“每个页面本身都是一个迭代器，最多包含page_size”项。每个页面都是一个简单的项目列表，可以迭代。您可以使用yield iter(page)来生成迭代器而不是对象，但是我没有看到它如何改善任何东西。

最后会抛出一个标准StopIteration。

你还想要什么？

Answer 3

我会这样做：

def pager(iterable, page_size):
    args = [iter(iterable)] * page_size
    fillvalue = object()
    for group in izip_longest(fillvalue=fillvalue, *args):
        yield (elem for elem in group if elem is not fillvalue)

这样，None可以是迭代器吐出的合法值。仅过滤掉了单个对象fillvalue，它不可能是可迭代的元素。

Answer 4

基于指向石斑鱼（）的itertools配方的指针，我想出了以下适应石斑鱼（）来模仿Pager。我想过滤掉任何无结果，并希望返回一个迭代器而不是一个元组（虽然我怀疑这种转换可能没什么优势）

# based on http://docs.python.org/library/itertools.html#recipes
def grouper2(n, iterable, fillvalue=None):
    args = [iter(iterable)] * n
    for item in izip_longest(fillvalue=fillvalue, *args):
        yield iter(filter(None,item))

我欢迎有关如何改进此代码的反馈。

Answer 5

def group_by(iterable, size):
    """Group an iterable into lists that don't exceed the size given.

    >>> group_by([1,2,3,4,5], 2)
    [[1, 2], [3, 4], [5]]

    """
    sublist = []

    for index, item in enumerate(iterable):
        if index > 0 and index % size == 0:
            yield sublist
            sublist = []

        sublist.append(item)

    if sublist:
        yield sublist

Answer 6

more_itertools.chunked会完全满足您的需求：

>>> import more_itertools
>>> list(chunked([1, 2, 3, 4, 5, 6], 3))
[[1, 2, 3], [4, 5, 6]]

如果要分块而不创建临时列表，则可以使用more_itertools.ichunked。

该库还具有许多其他不错的选项，可以有效地进行分组，开窗，切片等。

如何为Python迭代器编写寻呼机？

6 个答案: