我正在尝试查找以h开头的所有单词,但我需要排除html标记,就像在此搜索中一样。我有代码来查找以h:
开头的所有单词\h\w+
我只是不知道如何在我的搜索中排除特定的html标记。
答案 0 :(得分:1)
使用BeautifulSoup之类的东西来解析HTML。
答案 1 :(得分:0)
使用de exclude character [^]
[^<]h\w+
但我认为这种方式可能会更好地满足您的需求,因为它会为以h开头的每个单词生成匹配,而不是
(?!<)h\w+
更好的是,请执行以下匹配:
((?!<)h\w+)
(密切关注,在第一个(
之前有一个空格)
如果文字是:
html teste homem carro agharro hzete h
它会与“homem”和“hzete”完全匹配,成为您想要的第一个匹配组。 “奥梅姆”, “hzete”。
我建议您使用图形正则表达式验证工具,这样您就可以看到正在编写的表达式。 一个好的是https://regex101.com/
希望这有帮助。