Question

我有大约1 TB的图像，存储在我的硬盘中。这些是随着时间的推移拍摄的朋友和家人的照片。这些图片中的许多都是重复的，在某种意义上，相同的文件保存在不同的位置，可能也有不同的名称。我想问一下是否有任何工具，实用程序或方法（我可以编写代码）来找出重复的文件。

Answer 1

我建议使用md5deep or sha1deep。在Linux上只需安装包md5deep（它包含在大多数Linux发行版中）。

安装完成后，只需在整个磁盘上以递归模式运行它，并使用以下命令将磁盘上每个文件的校验和保存到文本文件中：

md5deep -r -l . > filelist.txt

如果您希望sha1优于md5，请改用sha1deep（它是同一个软件包的一部分）。

获得文件后，只需使用sort对其进行排序（或在上一步中将其导入sort）：

sort < filelist.txt > filelist_sorted.txt

现在，只需使用任何文本编辑器查看结果 - 您将很快看到所有重复项及其在磁盘上的位置。

如果您如此倾向，可以在Perl或Python中编写简单脚本，以根据此文件列表删除重复项。