Question

我在.html文件中有以下标签：

<td>
<P CLASS="abc">
hello</P>
</td>

我想删除文本周围的<P>标记，并删除第一个<P>标记后的换行符，以便我只获得以下文字。

<td>
hello
</td>

这些文件在Linux服务器上，所以如果有人有任何Linux方法，我很感兴趣。我也可以使用Notepad ++访问这些文件，它允许查找/替换正则表达式。

Answer 1

试试这个： by regex <p[^>]*>[\n\t\r]*|<\/p[^>]*>

在notepad ++中替换<p[^>]*>[\n\t\r]*|<\/p[^>]*>并替换为（空白）

下一个要求的更新：

(<td>[\s\S]*?)<P[^>]*>[\n\t\r]*([^>]+)<\/P>替换为$1$2