Question

我在 

标记下有很多的文字

 <p class="my_class">An Extension&nbsp;of Java for Event Correlation. 571 geographical/logical coordinates, or sources. Henceforth,&nbsp;we will use the term&nbsp;events to refer to&nbsp;both the incidents underlying such&nbsp;events as well as to their incarnations&nbsp;and notifications</p>

我想选择此标记并将所有 替换为多个html页面中的空白区域。

首先，我选择标记和内容：(?s)([^<]*)

然后我尝试将 包含在此正则表达式中，以便选择所有 

(?s).*? ([^<]*)但不起作用。任何人都可以帮助我吗？

Answer 1

您可以使用以下正则表达式：

(?:\G(?!^)|<p\s+class="my_class">)(?:(?!</p>).)*?\K&nbsp;

或者，为了确保我们只在一个节点内部替换HTML：

(?:\G(?!^)|<p\s+class="my_class">)[^<]*?\K&nbsp;

替换为空格。

<强>详情

(?:\G(?!^)|<p\s+class="my_class">) - 上一个匹配的结尾（\G(?!^)）或子字符串（该空格可以是\s引起的任何空格）
(?:(?!).)*? - 任何字符（请注意 .匹配换行符选项应该为ON），尽可能少的多次出现，但不会启动{ {1}}序列 - 或 -
 - [^<]*?以外的任何字符，0 +出现但尽可能少
< - 省略目前为止匹配的文字
\K - 匹配并使用 文字（将替换为空格）

正则表达式：从几个html页面中的标签中删除特定的重复单词

1 个答案: