正则表达式与重叠刮

时间:2016-01-26 17:46:52

标签: regex

我一直在这个问题上敲打太久。我目前的项目是通过HTML文件抓取文件并搜索关键字。我不能使用simplephpdom库,原因与此问题无关。

我需要从html标签中删除单词。所以,如果我正在搜索stack 它不应该匹配<a class="stack"> test <a>它应该只在标签内匹配  <a class="test"> stack <a>

我开发了以下正则表达式(?:>[^><]*)keyword(?:[^><]*</) 此正则表达式有效...但每个标记只找到1个关键字。在示例中,以下内容仅会抓取第一个stack和保释:<h1> Stack is so awesome. Stack is here again</h1>

问题。如何在HTML标记中搜索关键字。不抓取元数据或html数据。

1 个答案:

答案 0 :(得分:1)

根据发布的内容,尝试此模式

(stack)(?![^<>]*>)

Demo