在Python3中迭代文件行时`tell()`的替代方法?

时间:2017-09-25 12:29:02

标签: python python-3.x csv

在迭代Python3中的文件时,如何找出文件光标的位置?

在Python 2.7中,使用tell()是微不足道的。在Python3中,同一个调用会引发OSError

Traceback (most recent call last):
  File "foo.py", line 113, in check_file
    pos = infile.tell()
OSError: telling position disabled by next() call

我的用例是创建一个用于读取大型CSV文件的进度条。计算总行数太昂贵,需要额外通过。近似值非常有用,我不关心缓冲区或其他噪声源,我想知道它是否需要10秒或10分钟。

重现问题的简单代码。它在Python 2.7上按预期工作,但抛出Python 3:

file_size = os.stat(path).st_size
with open(path, "r") as infile:
    reader = csv.reader(infile)
    for row in reader:
        pos = infile.tell()  # OSError: telling position disabled by next() call
        print("At byte {} of {}".format(pos, file_size))

此答案https://stackoverflow.com/a/29641787/321772表明问题是next()方法在迭代期间禁用tell()。替代方案是逐行手动读取,但该代码在CSV模块内部,因此我无法获得它。我也无法通过禁用tell()来了解Python 3的收益。

那么在Python 3中迭代文件行时找出字节偏移量的首选方法是什么?

3 个答案:

答案 0 :(得分:6)

csv模块只需要reader调用的第一个参数是一个迭代器,它在每个next调用上返回一行。所以你可以使用迭代器包装器来计算字符数。如果您希望计数准确,则必须以二进制模式打开文件。但事实上,这很好,因为你将没有csv模块预期的行结束转换。

所以可能的包装是:

class SizedReader:
    def __init__(self, fd, encoding='utf-8'):
        self.fd = fd
        self.size = 0
        self.encoding = encoding   # specify encoding in constructor, with utf8 as default
    def __next__(self):
        line = next(self.fd)
        self.size += len(line)
        return line.decode(self.encoding)   # returns a decoded line (a true Python 3 string)
    def __iter__(self):
        return self

您的代码将成为:

file_size = os.stat(path).st_size
with open(path, "rb") as infile:
    szrdr = SizedReader(infile)
    reader = csv.reader(szrdr)
    for row in reader:
        pos = szrdr.size  # gives position at end of current line
        print("At byte {} of {}".format(pos, file_size))

这里的好消息是你保留了csv模块的所有功能,包括引用字段中的换行符......

答案 1 :(得分:0)

如果您在没有csv模块的情况下感到舒适。你可以这样做:

import os, csv

file_size = os.path.getsize('SampleCSV.csv')
pos = 0

with open('SampleCSV.csv', "r") as infile:
    for line in infile:
        pos += len(line) + 1    # 1 for newline character
        row = line.rstrip().split(',')
        print("At byte {} of {}".format(pos, file_size))

但是在字段本身包含\“。

的情况下,这可能不起作用

Ex:1,"Hey, you..",22:04虽然这些也可以使用正则表达式。

答案 2 :(得分:0)

由于您的 csvfile 太大,根据您提到的 the page 还有另一种解决方案:

使用 offset += len(line) 而不是 file.tell()。例如,

offset = 0
with open(path, mode) as file:
    for line in file:
        offset += len(line)