使用HtmlAgilityPack从解析的HTML中删除所有类和ID

时间:2015-03-18 18:00:35

标签: c# html html-agility-pack

我使用 HtmlAgilityPack 来解析一些html页面,我从这个页面中提取html标签,如下所示:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

在返回的html中,每个标记都包含类和id,我想删除所有id-s和所有类,我该怎么做呢?

1 个答案:

答案 0 :(得分:3)

也许您应该查看此链接:link

尽我所知,告诉您何时拥有HtmlNode,您可以使用其属性Attributes。此集合具有方法Remove(string),该方法接收要删除的属性的名称。好吧,我在一个小项目中使用它。我不确定这对你有帮助吗?

基本上是这样的:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
}