如何将巨大的html拆分为小文件

时间:2019-02-20 11:17:04

标签: python regex string python-2.7

我正在尝试提取一个巨大的html文件并将其拆分为多个部分。该文件由Jenkins生成,如下所示:

[XXX] text1
[XXX] text2
[YYY] text4
[XXX] text3
[YYY] text5
[ZZZ] text6
...

我尝试执行以下操作:

my_dict = {}
text, header = re.split('\n\[[A-Za-z]+\]'), re.match('\n\[[A-Za-z]+\]')
for idx, (header, text) in enumerate(zip(header, text)):
    try:
        my_dict[header] += text
    except KeyError:
        my_dict[header] = text
    print idx

但这花费的时间太长(idx为〜200K)。我可以以某种方式更快地这样做吗?

1 个答案:

答案 0 :(得分:1)

好的,解决了...我将循环分成了10K步,这使它在计算速度上疯狂地快了起来。猜猜我只是占用了太多的内存