这是我简化的HTML:
<html>
<body>
<div id="mainDiv">
<div id="divToRemove"></div>
<div id="divToKeep"></div>
<div class="divToRemove"></div>
<div class="divToRemove"></div>
</div>
</body>
</html>
我想删除名为“divToRemove”的ID或类的div 然后我想只选择名为“mainDiv”的div(在HtmlNode中)。
结果应该是:
<div id="mainDiv">
<div id="divToKeep"></div>
</div>
我怎样才能使用Html Agility Pack?
谢谢!
答案 0 :(得分:6)
以下代码改编自this Html Agility Pack forum page以满足您的需求。从本质上讲,我们将获取所有div,然后循环遍历它们并检查他们的类或他们的id以进行匹配。如果它在那里删除它。
var divs = htmldoc.DocumentNode.SelectNodes("//div");
if (divs != null)
{
foreach (var tag in divs)
{
if (tag.Attributes["class"] != null && string.Compare(tag.Attributes["class"].Value, "divToRemove", StringComparison.InvariantCultureIgnoreCase) == 0)
{
tag.Remove();
} else if(tag.Attributes["id"] != null && string.Compare(tag.Attributes["id"].Value, "divToRemove", StringComparison.InvariantCultureIgnoreCase) == 0) {
tag.Remove();
}
}
}
您也可以将这些if语句组合成一个大的if语句,但我认为这样可以更好地解答答案。
最后,选择您要查找的节点......
var mainDiv = htmldoc.DocumentNode.SelectSingleNode("//div[@id='mainDiv']");
答案 1 :(得分:1)
就个人而言,我更喜欢使用HtmlAgilityPack的Linq方法。选择将很长,但相对简单 - 只需选择具有正确id和/或类的节点,然后在其上调用Remove()
方法。
foreach (var node in doc.DocumentNode.Descendants("div")
.Where(n => n.Id.Equals("divToRemove", StringComparison.InvariantCultureIgnoreCase)
|| n.GetAttributeValue("class", string.Empty).Equals("divToRemove", StringComparison.InvariantCultureIgnoreCase)))
node.Remove();
HtmlNode mainNode = doc.DocumentNode.Descendants("div").Where(n => n.Id.Equals("mainDiv", StringComparison.InvariantCultureIgnoreCase).First();