如何删除像span这样的html标签,但是以html实体为前缀

时间:2017-04-12 17:26:41

标签: c# regex

我在Ajax Toolkit中找到了HtmlEditorExtender(它扩展了一个文本框以使用户能够输入保存为html的文本),如果你将Word中的文本粘贴到它中,那么当你回发时会产生这样的东西。

<span style="line-height: 115%; font-size: 18pt;">

我有一个正则表达式,可以删除不需要的标签,例如<span style="font-size:16px;"></span>。我需要一个正则表达式,它将摆脱&lt;&gt;以及它们之间的任何内容。

我尝试修改我所拥有的表达式,当它们在开头或结尾处有</>时,可以删除不需要的标记。

html = Regex.Replace(html, @"<[/]?(font|span|xml|del|ins|[ovwxp]:\w+)[^>]*?>", "", RegexOptions.IgnoreCase);

并想出了

html = Regex.Replace(html, @"(&lt;)[/]?(font|span|xml|del|ins|[ovwxp]:\w+)[^(&gt;)]*?>", "", RegexOptions.IgnoreCase);

但它什么也没做。如何摆脱已经html编码到各自实体中的span(以及标签中的样式等)的标签?

0 个答案:

没有答案