应用错误收集

我正在从政府网站上抓取大量音频文件，我希望避免收到重复文件。对于我过去已经删除的小文件，我下载整个文件，为它计算SHA1哈希值，并将其与我数据库中已有的项目进行比较。

由于我现在下载的文件要大得多，我只想在文件的前500kb上计算SHA1，所以我可以中止下载，如果有的话我已经有了。

我正在使用请求库下载文件......有没有一种合理的方法可以解决这个问题，而且不会强迫我一遍又一遍地重新下载这些文件？

编辑我一直在研究这个问题。一种解决方案可能是使用HTTP范围标题，但我已经测试了我将要抓取的221个政府网站，只有56个支持范围标题。这个想法太多了。