如何使此图像抓取工具更高效?

时间:2016-04-18 14:59:27

标签: c# wcf web-crawler downloadfileasync

我正在创建一个简单的应用程序,它必须从站点获取子目录中的所有图像,并在本地重新创建文件和文件夹结构。以下是我到目前为止的情况:

string folder = "c:\someLocalFolder\";

// To keep track of how many files that are processed
int i = 0;

// Folder x
for (int x = 2; x <= 7; x++)
{
   // Folder y
   for (int y = 0; y < 80; y++)
   {
       //File z
       for (int z = 0; z <= 70; z++)
       {
           // File, increment
           i++;

           string destFolderPath = Path.Combine(folder, x.ToString(), y.ToString());
           string filePath = Path.Combine(destFolderPath, z.ToString() + ".png");

           if (!File.Exists(filePath))
           {
               var url = string.Format("http://www.somesite.com/images/{0}/{1}/{2}.png", x, y, z);
               if (!Directory.Exists(destFolderPath))
                   // Folder doesnt exist, create
                   Directory.CreateDirectory(destFolderPath);
               var webClient = new WebClient();
               webClient.DownloadFileCompleted += (o, e) =>
               {
                   // less than 1 byte recieved, delete
                   if( (new FileInfo(filePath).Length) < 1 ) 
                   {
                       File.Delete(filePath);
                   }
                   // File processed
                   i--;
                   Console.WriteLine(i);
               };
               webClient.DownloadFileAsync(new Uri(url), filePath);
           }
           else
           {
               // File processed
               i--;
               Console.WriteLine(i);
           }
       }
   }
}

因此,你现在可以迭代并创建文件夹结构,然后我异步下载文件,然后检查文件是否小于文件大小的1个字节,如果是,则将其删除。

我认为我是以一种非常繁琐的方式做到这一点,它不是很快,而且它使得很多文件只删除了那些不符合要求的文件。

有没有更快的方法来确定文件是否存在于Web服务器上,并且基于该下载(如果存在),以及我创建文件夹结构的方式,这是一个合适的方式我如何实现它来完成我想要的?

1 个答案:

答案 0 :(得分:1)

  

是否有更快的方法来确定Web服务器上是否存在该文件

您可以向网络服务器发送HEAD请求。

如果网络服务器支持该方法,请检查返回的状态代码。

  • 当状态代码为200时,表示该文件存在。
  • 当状态代码为404时,表示该文件不存在。

另一方面,如果网络服务器不支持此方法,则会回退到原始代码。

详情请见此问题:How to send a HEAD request with WebClient in C#?

  

我创建文件夹结构的方式,这是一种合适的方式

//File z for循环中有一个不变量:

string destFolderPath = Path.Combine(folder, x.ToString(), y.ToString());

请改为尝试:

// Folder x
for (int x = 2; x <= 7; x++) {
   string xAsString = x.ToString();

   // Folder y
   for (int y = 0; y < 80; y++) {
       string destFolderPath = Path.Combine(folder, xAsString, y.ToString());

       //File z
       for (int z = 0; z <= 70; z++) {
           // File, increment
           i++;
           string filePath = Path.Combine(destFolderPath, z.ToString() + ".png");

           // ...
       }
   }
}