标签: c# .net regex
我目前有一个从字符串中删除任何HTML的扩展方法。
Regex.Replace(s, @"<(.|\n)*?>", string.Empty);
这总体上运行良好,但是,我偶尔会传递其中包含标准HTML标记的字符串,以及编码标记(我无法控制源数据,因此无法更正入境点),例如
<p><p>Sample text</p></p>
我需要一个表达式,它将从字符串中删除编码和非编码HTML(无论是段落标记,锚标记,格式标记等)。
答案 0 :(得分:5)
我认为你可以使用相同的Extension方法进行两次传递。
首先替换通常的未编码标签,然后Decode返回的字符串再次执行。简单