查找网页中所有链接的href,id和类

时间:2014-08-13 12:46:00

标签: c# html-parsing

我需要找到网页中的所有链接及其href,id和类属性/属性..

即使所有链接只有一个href和id,它也可能有多个类,因此必须在列表中捕获类。

我找到了this来查找所有链接,并且他们的href也找到了htmlagilitypack

我不熟悉html解析,所以如果有人可以帮我设置链接的id和类,我将不胜感激。

真心感谢任何帮助。

由于

1 个答案:

答案 0 :(得分:0)

htmlagilitypack是一个很棒的工具。您可以使用linq搜索所有' a'网页中的标签。

让我们看一下这个样本:

 HtmlDocument doc = new HtmlWeb().Load("http://www.google.com");

 IEnumerable<HtmlNode> linkedPages = doc.DocumentNode.Descendants("a");
 foreach (var item in linkedPages)
 {
    Console.WriteLine("Href : " + item.GetAttributeValue("href", string.Empty) +
    " id : " + item.GetAttributeValue("id", string.Empty) +
    " class : " + item.GetAttributeValue("class", string.Empty));
 }