Question

p = re.compile('>.*\n')
p.sub('', text)

我想删除所有以＆＃39;＆gt;＆＃39;开头的行。我有一个非常大的文件（3GB），我处理大小为250MB的块，所以变量＆＃34; text＆＃34;是一个250MB的字符串。（我尝试了不同的大小，但整个文件的性能总是相同的。）

现在，我可以以某种方式加速这个正则表达式吗？我尝试了多行匹配，但速度慢了很多。还是有更好的方法？

（我已经尝试拆分字符串然后过滤掉这样的行，但它也慢了（我也试过一个lambda而不是def del_line :(可能不是工作代码，它只是＃）来自记忆）：

def del_line(x): return x[0] != '>'

def func():
    ....
    text = file.readlines(chunksize)
    text = filter(del_line, text)
    ...

编辑：正如评论中所建议的那样，我也尝试逐行行走：

text = []
for line in file:
    if line[0] != '>':
        text.append(line)
text = ''.join(text)

那也慢了，需要~12秒。我的正则表达需要~7秒。（是的，那很快，但它也必须在较慢的机器上运行）

编辑：当然，我也试过str.startswith（＆＃39;＆gt;＆＃39;），它的速度较慢......

Answer 1

如果有机会，将grep作为子流程运行可能是最实用的选择。

如果由于某种原因你不能依赖grep，你可以尝试实施一些＆＃34;技巧＆＃34;使grep快。作者自己可以在这里阅读：http://lists.freebsd.org/pipermail/freebsd-current/2010-August/019310.html

在文章的最后，作者总结了要点。对我来说最突出的是：

此外，GNU grep AVOIDS突破了输入线。寻找换行会使grep减慢几倍，因为找到它必须查看每个字节的新行！

这个想法是将整个文件加载到内存中，并在字节级而不是行级上迭代它。只有当您找到匹配项时，才会查找行边界并将其删除。

你说你必须在其他计算机上运行它。如果它已经触及你并且你还没有这样做，可以考虑在PyPy而不是CPython（默认解释器）上运行它。这可能（或可能不）通过一个重要因素来改善运行时间，具体取决于程序的性质。

另外，正如一些评论已经提到的那样，与实际的grep基准测试，以获得合理的速度基线。如果你在Windows上，可以在Cygwin上获取它，这很容易。

Answer 2

这不是更快吗？

def cleanup(chunk):
    return '\n'.join(st for st in chunk.split('\n') if not(st and st[0] == '>'))

编辑：是的，那不是更快。这是两倍慢。

根据Ryan P.的建议，也许可以考虑使用子进程和像grep这样的工具。你甚至可以利用多处理。