Question

我正在尝试查找以h开头的所有单词，但我需要排除html标记，就像在此搜索中一样。我有代码来查找以h：

开头的所有单词

\h\w+

我只是不知道如何在我的搜索中排除特定的html标记。

Answer 1

使用BeautifulSoup之类的东西来解析HTML。

Answer 2

使用de exclude character [^]

[^<]h\w+

但我认为这种方式可能会更好地满足您的需求，因为它会为以h开头的每个单词生成匹配，而不是

 (?!<)h\w+

更好的是，请执行以下匹配：

 ((?!<)h\w+)

（密切关注，在第一个(之前有一个空格）

如果文字是：

html teste homem carro agharro hzete h

它会与“homem”和“hzete”完全匹配，成为您想要的第一个匹配组。 “奥梅姆”， “hzete”。

我建议您使用图形正则表达式验证工具，这样您就可以看到正在编写的表达式。一个好的是https://regex101.com/

希望这有帮助。