删除包含新行的文本周围的html标记

时间:2015-02-05 08:27:45

标签: html regex replace

我在.html文件中有以下标签:

<td>
<P CLASS="abc">
hello</P>
</td>

我想删除文本周围的<P>标记,并删除第一个<P>标记后的换行符,以便我只获得以下文字。

<td>
hello
</td>

这些文件在Linux服务器上,所以如果有人有任何Linux方法,我很感兴趣。我也可以使用Notepad ++访问这些文件,它允许查找/替换正则表达式。

1 个答案:

答案 0 :(得分:1)

试试这个: by regex <p[^>]*>[\n\t\r]*|<\/p[^>]*>

在notepad ++中替换<p[^>]*>[\n\t\r]*|<\/p[^>]*>并替换为(空白)

Live demo

下一个要求的更新:

(<td>[\s\S]*?)<P[^>]*>[\n\t\r]*([^>]+)<\/P>替换为$1$2

Live demo