无法从字符串中删除html

时间:2018-08-07 09:37:16

标签: c# regex

我从一个站点下载了一些数据,然后得到了这个字符串:Guangzhou R&F,正如您所看到的那样,在字符串中我也有amp;,但是正确的字符串(显示在站点上)是:广州富力。

因此,我尝试使用Regex删除该字符串,我写的表达式是这样的:

public static string RemoveHtml(string input)
{
    return Regex.Replace(input, @"<[^>]+>|&nbsp;", "").Trim();
}

问题是Regex表达式不能删除amp;我做错了什么?

1 个答案:

答案 0 :(得分:5)

您无需手动替换或删除HTML,请阅读有关Character encodings in HTML

的信息

这是您需要的解决方案:

System.Web.HttpUtility.HtmlDecode(input);