Question

我正在尝试使用C＃windows窗体应用程序从基于类或id名称的HTML源中获取元素。我使用WebClient将源代码放入一个字符串中，并使用HtmlDocument将其插入HTMLAgilityPack。

但是，我在HTMLAgilityPack包中找到的所有示例都会解析并根据标记查找项目。我需要找到一个特定的id，比如html中的一个链接，并检索标签内的值。这有可能吗？最有效的方法是什么？我试图解析id的一切都给了我例外。谢谢！

Answer 1

您应该可以使用XPath执行此操作：

HtmlDocument doc = new HtmlDocument();
doc.Load(@"file.htm");

HtmlNode node = doc.DocumentNode.SelectSingleNode("//*[@id=\"my_control_id\"]");
string value = (node == null) ? "Error, id not found" : node.InnerHtml;

这里对xpath的快速解释：

//表示在路径中的所有位置进行搜索，如果匹配倍数，请使用SelectNodes
*表示匹配任何类型的节点
[]定义“Predicates”，它基本上是检查与此节点相关的属性
[@id=\"my_control_id\"]表示查找具有名为“id”的属性且值为“my_control_id”的节点

Further reference

如何在C＃的HTML Source中按类或id抓取元素？

1 个答案: