HTMLAgilityPack剥离html

时间:2011-01-18 18:17:03

标签: c#

我确定这个问题之前已经问过了,在我找不到答案之前我已经看过了,或者我可能只是做错了。

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
                doc.LoadHtml(indivdualfix[0]);             
                HtmlWeb hwObject = new HtmlWeb();
                HtmlAgilityPack.HtmlDocument htmldocObject = hwObject.Load(indivdualfix[0]);
                HtmlNode body = htmldocObject.DocumentNode.SelectSingleNode("//body");
                body.Attributes.Remove("style");
                foreach (var a in body.Attributes.ToArray())
                    a.Remove();
                string bodywork = body.InnerHtml.ToString();

字符串体仍然返回所有html编码。我可能会遗漏一些非常小的东西。需要做些什么来基本删除所有的html编码。

1 个答案:

答案 0 :(得分:3)

使用body.InnerText而不是body.InnerHtml