用于从网页中提取HTML标记组的正则表达式

时间:2017-09-05 14:49:25

标签: html regex

我想从一个或多个标签组中提取(匹配)内容。例如:

<div class="cb main"><div class="header">...content...</div></div>
<div class="cb sub"><div class="subtitle">...content...</div></div>
<div class="note">...content...</div>
<div class="cb footer><span class="highlight">...content...</span></div>

在上面的示例中,我希望能够匹配至少具有class =&#34; cb&#34;的标记,包括该标记及其匹配的结束标记以及其间的所有标记和内容。在示例中匹配了三个标签。

1 个答案:

答案 0 :(得分:0)

你不能。 “在课堂上”的概念对于正则表达来说太复杂了

您应该使用XPath表达式。你会得到更好的结果:

//div[contains(@class, 'cb')]

重要提示:不要忘记//。这不是评论。