string删除html

时间:2011-05-19 15:55:57

标签: c# html regex

我想要一个正则表达式从字符串中删除html标签和& nbsp,& quot等。我的正则表达式是删除html标签,但不删除其他提到的标签。我正在使用.Net 4

由于

CODE:

     String result = Regex.Replace(blogText, @"<[^>]*>", String.Empty);

2 个答案:

答案 0 :(得分:1)

请勿使用正则表达式,请使用HTML Agility包:

http://www.codeplex.com/htmlagilitypack

答案 1 :(得分:0)

如果您希望以已创建的内容为基础,可以将其更改为以下内容:

String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty);

这意味着......

  1. 您定义的匹配标记......
  2. ...或匹配&后跟至少一个字符 \w - 尽可能多。
  3. 这两种情况都不适用于所有令人讨厌的情况,但通常都是如此。