谷歌涂鸦档案抓取

时间:2017-11-21 02:29:35

标签: web-scraping download google-doodle

我试图从他们的archive下载所有(大约2000)谷歌涂鸦(不是.gif或互动版),但是我一直没有运气。

我已尝试过很多针对终端的抓取命令,以及来自Github的一些包,例如ImageScraper。通过我尝试过的各种方式,我发现了:

  • 使用此extension
  • 约100张图片后,该过程就会停止
  • 它只下载了一些示例图像(大多数命令行工具都这样做了)
  • 只是下载了几张图片而没有继续下去

存档本身没有从我能看到的内容中编入索引,每个图像都有自己的名称,这也使得它更难。为了继续查看更多图像,当您向下滚动时,页面还需要继续加载(导致仅下载一些图像的问题)。我也担心连接或某些东西可能被切断,以便不能一次全部下载,可能不会导致过载(不知道如何解决这个问题)。

鉴于上述问题,我非常感谢任何人的帮助,他们有检索/剔除此类图像的经验。

0 个答案:

没有答案