使用RegEx从字符串中删除编码的HTML

时间:2011-02-17 11:07:59

标签: c# .net regex

我目前有一个从字符串中删除任何HTML的扩展方法。

Regex.Replace(s, @"<(.|\n)*?>", string.Empty);

这总体上运行良好,但是,我偶尔会传递其中包含标准HTML标记的字符串,以及编码标记(我无法控制源数据,因此无法更正入境点),例如

&lt;p&gt;<p>Sample text</p>&lt;/p&gt;

我需要一个表达式,它将从字符串中删除编码和非编码HTML(无论是段落标记,锚标记,格式标记等)。

1 个答案:

答案 0 :(得分:5)

我认为你可以使用相同的Extension方法进行两次传递。

首先替换通常的未编码标签,然后Decode返回的字符串再次执行。简单