HTMLAgilityPack - 获取不在标记中的文本

时间:2013-12-20 08:25:20

标签: c# .net xpath web-scraping html-agility-pack

<a href="/state/details"><span class="state">Queens</span> New York</a>

我只想要“纽约”。如何在不获得“皇后”的情况下实现这一目标?

2 个答案:

答案 0 :(得分:1)

我建议使用XPath从HtmlAgilityPack.HtmlDocument doc变量中检索所需的信息:

    foreach (HtmlNode node in doc.DocumentNode.SelectNodes("/a/text()[last()]"))
    {
        Console.WriteLine(node.InnerText.Trim());
    }

这仅选择纽约

答案 1 :(得分:0)

使用HtmlAgilityPack,您可以按如下方式使用LastChild:

return (doc.DocumentNode.Descendants("a").FirstOrDefault().LastChild.InnerText.Trim())

将只返回“纽约”。