从HTML到纯文本中删除样式标记,CSS,脚本和HTML标记

时间:2011-03-08 09:53:36

标签: asp.net regex

使用正则表达式,如何将样式标记,CSS,脚本和HTML标记从HTML删除为纯文本。

在ASP.NET C#。

1 个答案:

答案 0 :(得分:1)

我不认为你正在寻找一个正则表达式,但是下面的正则表达式应该这样做, 如果你运行正则表达式替换:

<[^>]*>

在正则表达式中使用此替换为以下内容:

string myHtmlString = "<html><body>my test text</body></html>";

string myPlainTextString = Regex.Replace(myHtmlString ,"<[^>]*>",String.Empty);

我建议你使用像Html Agility pack这样的东西 - http://htmlagilitypack.codeplex.com/

因为它有一种方法可以使这更容易称为“ConvertToPlainText”:

string myHtmlString = "<html><body>my test text</body></html>";

string myPlainTextString = ConvertToPlainText(myHtmlString);