Question

我想从一个或多个标签组中提取（匹配）内容。例如：

<div class="cb main"><div class="header">...content...</div></div>
<div class="cb sub"><div class="subtitle">...content...</div></div>
<div class="note">...content...</div>
<div class="cb footer><span class="highlight">...content...</span></div>

在上面的示例中，我希望能够匹配至少具有class =＆＃34; cb＆＃34;的标记，包括该标记及其匹配的结束标记以及其间的所有标记和内容。在示例中匹配了三个标签。

Answer 1

你不能。 “在课堂上”的概念对于正则表达来说太复杂了

您应该使用XPath表达式。你会得到更好的结果：

//div[contains(@class, 'cb')]

重要提示：不要忘记//。这不是评论。

用于从网页中提取HTML标记组的正则表达式

1 个答案: