问题非常简单:
我有几千个HTML文件,我想循环删除所有内容,直到第二个实例:
<!--------------------------------------------------------->
我知道如何在Python中加载文件,编写循环等,但我将文件解析为文本的所有尝试都失败了。
答案 0 :(得分:1)
您可以尝试split
字符串,并在第二次出现后获取内容。
source = "YOUR HTML FILE CONTENT"
print source.split('<!--------------------------------------------------------->')[2:]