删除HTML直到文件中的某个点

时间:2015-03-18 15:45:22

标签: python html

问题非常简单:
我有几千个HTML文件,我想循环删除所有内容,直到第二个实例:

<!--------------------------------------------------------->

我知道如何在Python中加载文件,编写循环等,但我将文件解析为文本的所有尝试都失败了。

1 个答案:

答案 0 :(得分:1)

您可以尝试split字符串,并在第二次出现后获取内容。

source = "YOUR HTML FILE CONTENT"
print source.split('<!--------------------------------------------------------->')[2:]