从字符串中删除所有HTML格式

时间:2010-08-06 10:59:22

标签: c# string

我正在尝试比较2个字符串但我刚刚意识到已经有一些html格式。

在执行string1 == string2时,如何让这两个字符串匹配。 (注意:我不知道HTML格式将会是什么样的)

string1 = "This is a test";
string1 = "<font color=\"black\" size=\"1\">This is a test</font>";

3 个答案:

答案 0 :(得分:7)

将html加载到Html Agility Pack,并仅提取文本。

string html = "<html><body><div>test</div></body></html>";
HtmlDocument document = new HtmlDocument();
document.LoadHtml(html)
string text = document.DocumentNode.InnerText;

这不会删除<script>个节点的内容,但您可以先轻松删除脚本节点。

答案 1 :(得分:0)

string newText = System.Text.RegularExpressions.Regex.Replace(OldHtmlTextHere, "<[^>]*>", string.Empty);

答案 2 :(得分:-5)

查看system.web.Httputility.HTMLdecode