我尝试通过命令行在我的mac机器中搜索重复文件。 对于10 GB的数据文件,这个过程花了将近半个小时,而Gemini和cleanmymac应用程序花费较少的时间来查找文件。 所以我的观点是这些应用程序如何实现这种坚固性,它背后的概念是什么?在哪种语言代码中编写。
我尝试使用谷歌搜索信息,但没有得到任何与重复查找器有关的内容。
如果您有任何想法,请在此处输入。
答案 0 :(得分:1)
首先,Gemini找到大小相等的文件,而不是使用它自己的类似哈希的类型相关算法来比较文件内容。该算法不是100%准确,但比经典哈希快得多。
答案 1 :(得分:0)
我联系了支持人员,询问他们使用了什么算法。他们的回答是他们将每个文件的各个部分相互比较,而不是整个文件或做哈希。结果,他们只能检查每个文件的大小相差5%(或更少),并且获得相当准确的结果。使用这种方法,他们不必支付比较整个文件或散列文件成本的成本。如果他们使用这种方法进行初步比较,他们可能会更准确,然后对潜在的匹配进行全面比较。
使用此方法,可以将彼此较小变体的文件检测为相同。例如,我有两首歌(原始混音和VIP混音)相同。我还有两个图像,一个带有水印,一个没有,列为相同。在这两种情况下,算法恰好选择了两个文件中相同的文件部分。