我一直在这个问题上敲打太久。我目前的项目是通过HTML文件抓取文件并搜索关键字。我不能使用simplephpdom库,原因与此问题无关。
我需要从html标签中删除单词。所以,如果我正在搜索stack
它不应该匹配<a class="stack"> test <a>
它应该只在标签内匹配
<a class="test"> stack <a>
我开发了以下正则表达式(?:>[^><]*)keyword(?:[^><]*</)
此正则表达式有效...但每个标记只找到1个关键字。在示例中,以下内容仅会抓取第一个stack
和保释:<h1> Stack is so awesome. Stack is here again</h1>
问题。如何在HTML标记中搜索关键字。不抓取元数据或html数据。