清除从Word转换的HTML文档中的额外标签

时间:2016-07-13 11:06:23

标签: html css regex ms-word ultraedit

我有Word到HTML转换后生成的大型HTML文档。 HTML代码包含大量额外标签。我希望用正则表达式清除额外的标签。我正在使用UltraEdit编辑器(v11.20)。我已经尝试了一些正则表达式来找到html中所需的位置,但对我来说不起作用。(例如'*')

以下是代码示例:

<P LANG="en-US" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left: -0.49in; margin-right: -0.59in; text-indent: 0.3in; margin-bottom: 0in">
<FONT COLOR="#943634">       </FONT><FONT COLOR="#943634"><FONT FACE="Arial, sans-serif"><FONT SIZE=5 STYLE="font-size: 20pt"><B> TEXT TEXT</B></FONT></FONT></FONT></P>

我想使用正则表达式将其替换为

<h1> TEXT TEXT TEXT</h1>

注意,里面有一个间距

<font color="#943634"> </font>代码

此外,<B> </B>标记内的文字可能很长,并且可以移动到新行。

2 个答案:

答案 0 :(得分:2)

我通过使用“查找和替换”命令清除标记解决了问题,只需重新运行几次。

答案 1 :(得分:0)

那么,

删除标签p添加标签img,尝试:

function wp_bootstrap_filter_ptags_on_images( $content ){
    return preg_replace( '/<p>\s*(<a .*>)?\s*(<img .* \/>)\s*(<\/a>)?\s*<\/p>/iU', '\1\2\3', $content );
}
add_filter('the_content', 'wp_bootstrap_filter_ptags_on_images');

......它不是全部,但它是一种东西而不是什么......! : - )