如何在Gemini For Mac操作系统中实现重复文件搜索

时间:2015-08-28 07:02:55

标签: macos filesystems

我尝试通过命令行在我的mac机器中搜索重复文件。 对于10 GB的数据文件,这个过程花了将近半个小时,而Gemini和cleanmymac应用程序花费较少的时间来查找文件。 所以我的观点是这些应用程序如何实现这种坚固性,它背后的概念是什么?在哪种语言代码中编写。

我尝试使用谷歌搜索信息,但没有得到任何与重复查找器有关的内容。

如果您有任何想法,请在此处输入。

2 个答案:

答案 0 :(得分:1)

首先,Gemini找到大小相等的文件,而不是使用它自己的类似哈希的类型相关算法来比较文件内容。该算法不是100%准确,但比经典哈希快得多。

答案 1 :(得分:0)

我联系了支持人员,询问他们使用了什么算法。他们的回答是他们将每个文件的各个部分相互比较,而不是整个文件或做哈希。结果,他们只能检查每个文件的大小相差5%(或更少),并且获得相当准确的结果。使用这种方法,他们不必支付比较整个文件或散列文件成本的成本。如果他们使用这种方法进行初步比较,他们可能会更准确,然后对潜在的匹配进行全面比较。

使用此方法,可以将彼此较小变体的文件检测为相同。例如,我有两首歌(原始混音和VIP混音)相同。我还有两个图像,一个带有水印,一个没有,列为相同。在这两种情况下,算法恰好选择了两个文件中相同的文件部分。