如何在抓取时检查“未更改”的文件?

时间:2013-10-19 04:34:12

标签: python scala web-crawler

我正在尝试构建一个索引.deb文件的爬虫,并解析内部并提取一些元信息。

现在,我希望尽可能便宜地做到这一点 - 但也要尽可能频繁地进行(也许每5-6小时一次)。所以我想确保我不下载未更改的文件。

也许我在这里遗漏了一些东西,但是如何在不下载的情况下检查文件是否保持不变?

1 个答案:

答案 0 :(得分:1)

下载元数据(目录列表),它将为您提供时间戳,文件大小等。使用它来确定文件是否已更改。如果可用,您还可以检查MD5哈希值。一旦确定文件已更改,您可以将其标记为下载。

Web浏览器使用类似的策略来确定资产是否已更改。即使是电子邮件客户端也使用类似的策略,尤其是手持设备他们首先只下载邮件头。如果用户想要阅读邮件,则下载正文。