从文本中删除HTML评论标签

时间:2018-05-13 06:18:20

标签: regex python-2.7 beautifulsoup

我真的很想从HTML中删除评论标签。

我想将所有内容保留在评论标记中。我只想从文本中删除<!---->

我正在使用 Python 2.7 BeautifulSoup4 编写代码。

我尝试使用正则表达式无济于事。我尝试了模式"(<!--.*?-->)",但这似乎也删除了内部的所有内容。

我也尝试了"(<!--|-->)",但它并没有按我的意愿行事。

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:0)

你可以使用re.sub:

import re

f = open('filename.txt', 'r').readlines()
for n in f:
  text = n.rstrip()
othertext = re.sub('<!--', '', text)
f = open('saved.txt', 'a')
f.write(othertext)
f.write('\n')