我正在使用HtmlAgilityPack从链接(网站)中删除数据。网站中有许多p
代码,header
和span
代码。我需要废弃特定span
代码中的数据。
var webGet = new HtmlWeb();
var document = webGet.Load(URL);
foreach (HtmlNode node in document.DocumentNode.SelectNodes("\\span"))
{
string strData = node.InnerText.Trim();
}
我曾尝试在父标记上使用关键字,但不适用于所有类型的网址。
请帮我解决。
答案 0 :(得分:0)
错误是什么?
但你可以先解决这个问题:
foreach (HtmlNode node in document.DocumentNode.SelectNodes("\\span"))
它应该是:
foreach (HtmlNode node in document.DocumentNode.SelectNodes("//span"))
根据评论进行更新:
例如,如果您想从根目录获取第三个span标记:
doc.DocumentNode.SelectSingleNode("//span[3]")
如果要获取包含文本“pqr”的节点:
doc.DocumentNode.SelectSingleNode("//span[contains(text(),'pqr')]");
您可以使用SelectNodes为后者获取文本中包含“pqr”的所有span标记。