在Python中使用RegEx查找以h开头的单词,但不包括html标签

时间:2016-12-09 17:57:14

标签: python html regex

我正在尝试查找以h开头的所有单词,但我需要排除html标记,就像在此搜索中一样。我有代码来查找以h:

开头的所有单词
\h\w+

我只是不知道如何在我的搜索中排除特定的html标记。

2 个答案:

答案 0 :(得分:1)

使用BeautifulSoup之类的东西来解析HTML。

答案 1 :(得分:0)

使用de exclude character [^]

[^<]h\w+ 

但我认为这种方式可能会更好地满足您的需求,因为它会为以h开头的每个单词生成匹配,而不是

 (?!<)h\w+

更好的是,请执行以下匹配:

 ((?!<)h\w+)

(密切关注,在第一个(之前有一个空格)

如果文字是:

  

html teste homem carro agharro hzete h

它会与“homem”和“hzete”完全匹配,成为您想要的第一个匹配组。 “奥梅姆”, “hzete”。

我建议您使用图形正则表达式验证工具,这样您就可以看到正在编写的表达式。 一个好的是https://regex101.com/

希望这有帮助。