我试图获得一个正则表达式来匹配html标签之外和之间的某些单词(而不是标签本身),但是当它们位于html标题标签(h1,h2,h3等)之间时,我还需要排除它们。 ..)
以下是我尝试的内容:/(\bword\b)(?=[^>]*(<|$))/i
实例: https://regex101.com/r/rM8tU3/1
排除标题标签是唯一缺失的元素。
答案 0 :(得分:1)
使用此模式跳过/失败<h1></h1>
之间的所有内容
根据以下评论更新
<h1>[^<>]*<\/h1>(*SKIP)(*F)|(\bsample|text\b)(?=[^>]*(?:<|$))