在文件python 3中查找和删除行

时间:2012-06-12 19:16:27

标签: file python-3.x

我使用python 3

好的,我有一个像这样锁定的文件:

id:1
1
34
22
52
id:2
1
23
22
31
id:3
2
12
3
31
id:4
1
21
22
11

如何查找和删除文件的这一部分?

id:2
1
23
22
31

我一直在努力做到这一点,但无法让它发挥作用。

3 个答案:

答案 0 :(得分:1)

用于决定删除序列的id,还是用于决策的值列表?

您可以构建一个字典,其中id号是键(由于后面的排序而转换为int),并且以下行转换为字符串列表,该字符串是键的值。然后,您可以使用键2删除项目,并遍历按键排序的项目,并输出新的id:key以及字符串的格式化列表。

或者您可以构建订单受保护的列表列表。如果要保护id的序列(即不重新编号),您还可以记住内部列表中的id:n。

这可以用于合理大小的文件。如果文件很大,您应该将源复制到目标并快速跳过不需要的序列。对于小文件,最后一种情况也相当容易。

[澄清后添加]

我建议学习以下在许多此类情况下有用的方法。它使用所谓的有限自动机来实现绑定到从一个状态到另一个状态的转换的动作(参见Mealy machine)。

文本行是此处的输入元素。表示上下文状态的节点在此处编号。 (我的经验是,给它们命名是不值得的 - 保持它们只是愚蠢的数字。)这里只使用了两个状态,status很容易被布尔变量替换。但是,如果情况变得更复杂,则会导致引入另一个布尔变量,并且代码变得更容易出错。

代码最初可能看起来很复杂,但是当您知道可以分别考虑每个if status == number时,它很容易理解。这是捕获先前处理的上述上下文。不要试图优化,让代码那样。它实际上可以在以后进行人工解码,您可以绘制类似于Mealy machine example的图片。如果你这样做,那就更容易理解了。

想要的功能有点概括 - 可以将一组被忽略的部分作为第一个参数传递:

import re

def filterSections(del_set, fname_in, fname_out):
    '''Filtering out the del_set sections from fname_in. Result in fname_out.'''

    # The regular expression was chosen for detecting and parsing the id-line.
    # It can be done differently, but I consider it just fine and efficient.
    rex_id = re.compile(r'^id:(\d+)\s*$')

    # Let's open the input and output file. The files will be closed
    # automatically.
    with open(fname_in) as fin, open(fname_out, 'w') as fout:
        status = 1                 # initial status -- expecting the id line
        for line in fin:
            m = rex_id.match(line) # get the match object if it is the id-line

            if status == 1:      # skipping the non-id lines
                if m:              # you can also write "if m is not None:"
                    num_id = int(m.group(1))  # get the numeric value of the id
                    if num_id in del_set:     # if this id should be deleted
                        status = 1            # or pass (to stay in this status)
                    else:
                        fout.write(line)      # copy this id-line
                        status = 2            # to copy the following non-id lines
                #else ignore this line (no code needed to ignore it :)

            elif status == 2:      # copy the non-id lines
                if m:                         # the id-line found
                    num_id = int(m.group(1))  # get the numeric value of the id
                    if num_id in del_set:     # if this id should be deleted
                        status = 1            # or pass (to stay in this status)
                    else:
                        fout.write(line)      # copy this id-line
                        status = 2            # to copy the following non-id lines
                else:
                    fout.write(line)          # copy this non-id line


if __name__ == '__main__':
    filterSections( {1, 3}, 'data.txt', 'output.txt')
    # or you can write the older set([1, 3]) for the first argument.

这里输出id-lines给出原始数字。如果要对这些部分重新编号,可以通过简单的修改来完成。尝试代码并询问详细信息。

请注意,有限自动机的功率有限。它们不能用于通常的编程语言,因为它们无法捕获嵌套的配对结构(如parenteses)。

P.S。从计算机的角度来看,7000行实际上是一个很小的文件;)

答案 1 :(得分:0)

将每一行读入一个字符串数组。索引号是行号 - 1.在读取行之前检查行是否等于“id:2”。如果是,则停止读取该行,直到该行等于“id:3”。读取该行后,清除该文件并将该数组写回该文件,直到该数组结束。这可能不是最有效的方式,但应该有效。

答案 2 :(得分:0)

如果之间没有任何可能会干扰的值,那么......

import fileinput 
...
def deleteIdGroup( number ):
    deleted = False
    for line in fileinput.input( "testid.txt", inplace = 1 ):
        line = line.strip( '\n' )
        if line.count( "id:" + number ): # > 0
            deleted = True;
        elif line.count( "id:" ): # > 0
            deleted = False;
        if not deleted:
            print( line )

修改

抱歉,删除了id:2和id:20 ... yuo可以修改它,以便第一个if检查 - line ==“id:”+ number