我确定这个问题之前已经问过了,在我找不到答案之前我已经看过了,或者我可能只是做错了。
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(indivdualfix[0]);
HtmlWeb hwObject = new HtmlWeb();
HtmlAgilityPack.HtmlDocument htmldocObject = hwObject.Load(indivdualfix[0]);
HtmlNode body = htmldocObject.DocumentNode.SelectSingleNode("//body");
body.Attributes.Remove("style");
foreach (var a in body.Attributes.ToArray())
a.Remove();
string bodywork = body.InnerHtml.ToString();
字符串体仍然返回所有html编码。我可能会遗漏一些非常小的东西。需要做些什么来基本删除所有的html编码。
答案 0 :(得分:3)
使用body.InnerText
而不是body.InnerHtml