应用错误收集

如何在Gemini For Mac操作系统中实现重复文件搜索

时间：2015-08-28 07:02:55

标签： macos filesystems

我尝试通过命令行在我的mac机器中搜索重复文件。对于10 GB的数据文件，这个过程花了将近半个小时，而Gemini和cleanmymac应用程序花费较少的时间来查找文件。所以我的观点是这些应用程序如何实现这种坚固性，它背后的概念是什么？在哪种语言代码中编写。

我尝试使用谷歌搜索信息，但没有得到任何与重复查找器有关的内容。

如果您有任何想法，请在此处输入。

2 个答案:

答案 0 :(得分：1)

首先，Gemini找到大小相等的文件，而不是使用它自己的类似哈希的类型相关算法来比较文件内容。该算法不是100％准确，但比经典哈希快得多。

答案 1 :(得分：0)

我联系了支持人员，询问他们使用了什么算法。他们的回答是他们将每个文件的各个部分相互比较，而不是整个文件或做哈希。结果，他们只能检查每个文件的大小相差5％（或更少），并且获得相当准确的结果。使用这种方法，他们不必支付比较整个文件或散列文件成本的成本。如果他们使用这种方法进行初步比较，他们可能会更准确，然后对潜在的匹配进行全面比较。

使用此方法，可以将彼此较小变体的文件检测为相同。例如，我有两首歌（原始混音和VIP混音）相同。我还有两个图像，一个带有水印，一个没有，列为相同。在这两种情况下，算法恰好选择了两个文件中相同的文件部分。