我需要查找所有重复文件(特定的图像),但是我测试过的所有算法都非常慢(获取像素,加载图像并使用锁定位进行比较)
我将始终有2个文件夹:Master
和PossibleDups
。
每次程序运行时,它都会遍历PossibleDups
中的所有文件,并将它们与Master
中的每个文件进行比较以进行可能的重复,如果两个目录都具有10-100个图像,则此方法有效,但不是Master
可能有1万个文件时可用。
我的对策计划是
Master
不会经常更改,因此请一次创建每个文件的md5映射并将其存储在json /表中,并在添加更多文件时更新此表PossibleDups
创建每个文件的md5并将它们与主地图进行比较。我的问题是,这是一个很好的解决方案,还是我还没有考虑的事情?
我已经有了用于图像直接比较的代码,出于性能原因,它并没有削减它。
我也了解,如果图像是其他图像旋转,则md5不会考虑在内,我只对直接比较文件大小,方向等感兴趣。