如何有效地将新行添加到大文件的开头?

时间:2012-07-25 08:43:53

标签: python python-3.x file-handling

我想在2GB +文件的开头添加一个新行。我尝试了以下代码,但代码为MEMORY  错误。

myfile = open(tableTempFile, "r+")
myfile.read() # read everything in the file
myfile.seek(0) # rewind
myfile.write("WRITE IN THE FIRST LINE ")
myfile.close();
  1. 在不将整个文件存入内存的情况下写入文件文件的方法是什么?
  2. 如何在文件开头添加新行?

3 个答案:

答案 0 :(得分:4)

请注意,Python中的任何内置函数都无法做到这一点。

您可以使用tail / cat等在LINUX中轻松完成此操作。

为了通过Python实现,我们必须使用辅助文件,并且对于非常大的文件,我认为这种方法是可能的:

def add_line_at_start(filename,line_to_be_added):
    f = fileinput.input(filename,inplace=1)
    for xline in f:
        if f.isfirstline():
            print line_to_be_added.rstrip('\r\n') + '\n' + xline,
        else:
            print xline

注:

  1. 在处理大文件时,切勿尝试使用read()/ readlines()函数。这些方法尝试将整个文件加载到您的内存中

  2. 在您给定的代码中,搜索功能将以您为起点,但您编写的所有内容将覆盖当前内容

答案 1 :(得分:3)

如果你能负担得起将整个文件同时存入内存:

first_line_update = "WRITE IN THE FIRST LINE \n"
with open(tableTempFile, 'r+') as f:
  lines = f.readlines()
  lines[0] = first_line_update
  f.writelines(lines)

否则:

from shutil import copy
from itertools import islice, chain 
# TODO: use a NamedTemporaryFile from the tempfile module
first_line_update = "WRITE IN THE FIRST LINE \n"
with open("inputfile", 'r') as infile, open("tmpfile", 'w+') as outfile:
  # replace the first line with the string provided:
  outfile.writelines(
    (line for line in chain((first_line_update,), islice(infile,1,None)))
  # if you don't want to replace the first line but to insert another line before
  # this simplifies to:
  #outfile.writelines(line for line in chain((first_line_update,), infile))
copy("tmpfile", "infile")
# TODO: remove temporary file

答案 2 :(得分:2)

一般来说,你不能这样做。文件是字节序列,而不是行序列。此数据模型不允许在任意点插入 - 您可以将字节替换为另一个字节,也可以在末尾附加字节。

你可以:

  • 替换文件中的前X个字节。如果您可以确保第一行的长度永远不会变化,这可能对您有用。
  • 截断文件,写下第一行,然后重写所有其余部分。如果您无法将所有文件放入内存中,那么:
    • 创建一个临时文件(tempfile模块将帮助您)
    • 写下你的专栏
    • r中打开您的基本文件,并将第一行之后的内容复制到临时文件中,分段
    • 关闭两个文件,然后用临时文件
    • 替换输入文件

(请注意,附加到文件末尾要容易得多 - 您需要做的就是以追加a模式打开文件。)