如何获得href内容

时间:2012-08-13 10:56:04

标签: c# c#-4.0 html-parsing web-scraping

我正在尝试从href中提取链接。<a class="p_l" href="" id="0" target="_blank"> 这是页面视图源中可见的内容,但是当我使用firebug进行检查时,href将包含http://home.website.com/preview/preview?uname=3eadsf132sdas。我尝试使用htmlagilitypack但是href返回null。如何在href中提取链接。

2 个答案:

答案 0 :(得分:1)

如果您没有尝试过这种方式,请尝试这种方式

    HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument();

        htmlDoc.OptionFixNestedTags=true;

        htmlDoc.Load(filePath);

 foreach(HtmlNode link in htmlDoc.DocumentElement.SelectNodes("//a[@href"])
 {
    if(link != null)
    {
      if(link["href"] != null)
      {
       HtmlAttribute att = link["href"];
       var url = att.Value;
      }
    }

答案 1 :(得分:1)

您可以尝试不同的方法,例如使用WebRequest类获取html内容(请参阅here如何)。

如果href不包含任何链接,则可能意味着使用Javascript或其他编程语言填充它以添加动态内容。如果您可以访问脚本,那么您可能很少有机会获取链接,但不要这么认为。