我从一个站点下载了一些数据,然后得到了这个字符串:Guangzhou R&F
,正如您所看到的那样,在字符串中我也有amp;
,但是正确的字符串(显示在站点上)是:广州富力。
因此,我尝试使用Regex
删除该字符串,我写的表达式是这样的:
public static string RemoveHtml(string input)
{
return Regex.Replace(input, @"<[^>]+>| ", "").Trim();
}
问题是Regex
表达式不能删除amp;
我做错了什么?
答案 0 :(得分:5)
您无需手动替换或删除HTML,请阅读有关Character encodings in HTML
的信息这是您需要的解决方案:
System.Web.HttpUtility.HtmlDecode(input);