我正在从政府网站上抓取大量音频文件,我希望避免收到重复文件。对于我过去已经删除的小文件,我下载整个文件,为它计算SHA1哈希值,并将其与我数据库中已有的项目进行比较。
由于我现在下载的文件要大得多,我只想在文件的前500kb上计算SHA1,所以我可以中止下载,如果有的话我已经有了。
我正在使用请求库下载文件......有没有一种合理的方法可以解决这个问题,而且不会强迫我一遍又一遍地重新下载这些文件?
编辑我一直在研究这个问题。一种解决方案可能是使用HTTP范围标题,但我已经测试了我将要抓取的221个政府网站,只有56个支持范围标题。这个想法太多了。