使用正则表达式,如何将样式标记,CSS,脚本和HTML标记从HTML删除为纯文本。
在ASP.NET C#。
中答案 0 :(得分:1)
我不认为你正在寻找一个正则表达式,但是下面的正则表达式应该这样做, 如果你运行正则表达式替换:
<[^>]*>
在正则表达式中使用此替换为以下内容:
string myHtmlString = "<html><body>my test text</body></html>";
string myPlainTextString = Regex.Replace(myHtmlString ,"<[^>]*>",String.Empty);
我建议你使用像Html Agility pack这样的东西 - http://htmlagilitypack.codeplex.com/
因为它有一种方法可以使这更容易称为“ConvertToPlainText”:
string myHtmlString = "<html><body>my test text</body></html>";
string myPlainTextString = ConvertToPlainText(myHtmlString);