Python:如何从文本字符串中删除HTML标头?

时间:2011-06-23 20:18:29

标签: python regex

  

可能重复:
  using python, Remove HTML tags/formatting from a string

我在HTML文件中读到:

fi = open("Tree.html", "r")
text = fi.read()

我想从文本中删除HTML标题:

text = re.sub("<head>.*?</head>", "", text)

为什么这不起作用?

1 个答案:

答案 0 :(得分:1)

看起来你没有抓到换行符。您需要添加DOTALL标志。

text = re.sub("<head>.*?</head>", "", text, flags=re.DOTALL)