从StringIO读取直到遇到某个字节的快速方法

时间:2011-11-26 16:25:10

标签: python performance optimization stream stringio

假设我有一些StringIO(来自cStringIO)。我想从中读取缓冲区,直到遇到某个字符/字节,比如'Z',所以:

stringio = StringIO('ABCZ123')
buf = read_until(stringio, 'Z')  # buf is now 'ABCZ'
# strinio.tell() is now 4, pointing after 'Z'

在Python中执行此操作的最快方法是什么?谢谢

3 个答案:

答案 0 :(得分:5)

我非常失望这个问题在堆栈溢出时只得到一个答案,因为它是有趣且相关的问题。无论如何,因为只有ovgolovin提供解决方案,我认为它可能很慢,我认为更快的解决方案:

def foo(stringio):
    datalist = []
    while True:
        chunk = stringio.read(256)
        i = chunk.find('Z')
        if i == -1:
            datalist.append(chunk)
        else:
            datalist.append(chunk[:i+1])
            break
        if len(chunk) < 256:
            break
    return ''.join(datalist)

这是以块的形式读取io(可能在第一块中找不到结束字符串)。它非常快,因为没有为每个字符调用Python函数,而是相反,C编写的Python函数的最大用法。

这比快。我跑了timeit进行检查。

答案 1 :(得分:2)

i = iter(lambda: stringio.read(1),'Z')
buf = ''.join(i) + 'Z'

此模式中使用iteriter(callable, sentinel) -> iterator

''.join(...)非常有效。添加'Z'''.join(i) + 'Z'的最后一个操作并不是那么好。但是可以通过向迭代器添加'Z'来解决它:

from itertools import chain, repeat

stringio = StringIO.StringIO('ABCZ123')
i = iter(lambda: stringio.read(1),'Z')
i = chain(i,repeat('Z',1))
buf = ''.join(i)

另一种方法是使用生成器:

def take_until_included(stringio):
    while True:
        s = stringio.read(1)
        yield s
        if s=='Z':
            return

i = take_until_included(stringio)
buf = ''.join(i)

我做了一些效率测试。所描述技术的表现非常相似:

http://ideone.com/dQGe5

答案 2 :(得分:0)

#!/usr/bin/env python3
import io


def iterate_stream(stream, delimiter, max_read_size=1024):
    """ Reads `delimiter` separated strings or bytes from `stream`. """
    empty = '' if isinstance(delimiter, str) else b''
    chunks = []
    while 1:
        d = stream.read(max_read_size)
        if not d:
            break
        while d:
            i = d.find(delimiter)
            if i < 0:
                chunks.append(d)
                break
            chunks.append(d[:i+1])
            d = d[i+1:]
            yield empty.join(chunks)
            chunks = []
    s = empty.join(chunks)
    if s:
        yield s


if __name__ == '__main__':
    print(next(iterate_stream(io.StringIO('ABCZ123'), 'Z')))
    print(next(iterate_stream(io.BytesIO(b'ABCZ123'), b'Z')))