从外部URL /网站获取所有图像

时间:2014-01-07 06:38:57

标签: asp.net image url external html-agility-pack

这段代码很好用......我没有问题。

var urls = from lnks in document.DocumentNode.Descendants()
  where (lnks.Name == "a" && lnks.Attributes["href"] != null &&
        (lnks.Attributes["href"].Value.ToString().Contains("jpg")
         || lnks.Attributes["href"].Value.ToString().Contains("png")
         || lnks.Attributes["href"].Value.ToString().Contains("bmp")
         || lnks.Attributes["href"].Value.ToString().Contains("jpeg")
         || lnks.Attributes["href"].Value.ToString().Contains("gif"))
        )
        select new
        {
         Url = lnks.Attributes["href"].Value
        };

但是这个总是返回null:

var urls = from lnks in document.DocumentNode.Descendants()
           where (lnks.Name == "a" || lnks.Name == "img") && 
                 (lnks.Attributes["href"] != null || lnks.Attributes["src"] != null) &&
                 (
                 lnks.Attributes["href"].Value.ToString().Contains("jpg")
                 || lnks.Attributes["href"].Value.ToString().Contains("png")
                 || lnks.Attributes["href"].Value.ToString().Contains("bmp")
                 || lnks.Attributes["href"].Value.ToString().Contains("jpeg")
                 || lnks.Attributes["href"].Value.ToString().Contains("gif")
                 || lnks.Attributes["src"].Value.ToString().Contains("jpg")
                 || lnks.Attributes["src"].Value.ToString().Contains("png")
                 || lnks.Attributes["src"].Value.ToString().Contains("bmp")
                 || lnks.Attributes["src"].Value.ToString().Contains("jpeg")
                 || lnks.Attributes["src"].Value.ToString().Contains("gif")
                 )
           select new
           {
            Url = lnks.Attributes["src"] != null ? lnks.Attributes["src"].Value : lnks.Attributes["href"].Value
           };

我的错误是什么?这是拍摄图像的正确方法吗?

1 个答案:

答案 0 :(得分:4)

这是图像节点的代码。从中创建一个函数,您可以将它用于任何节点:

  

GetLinksFromDocument(document,nodeName,linkAttributeName)

using HtmlAgilityPack;

var urls = new List<string>();
var prefixList = new[] { "jpg", "jpeg", "png", "bmp", "gif" };
var document = new HtmlWeb().Load("http://jwillmer.de");

var imageNodes = document.DocumentNode.Descendants("img");  
var imageLinks = imageNodes.Where(node => node.Attributes.Contains("src"))
                           .Select(node => node.Attributes["src"].Value);

urls.AddRange(imageLinks.Where(link => prefixList.Any(link.EndsWith)));