原始分段散列使用文件的固定大小的片段来评估散列值。 我发现一些分段哈希,例如上下文触发分段哈希使用滚动哈希来触发何时评估文件的哈希值。
我不太确定使用这种技术而不是传统技术。
答案 0 :(得分:3)
我认为你的意思是“上下文触发分段哈希”?
ssdeep project链接到一篇名为“使用上下文触发的分段散列识别几乎相同的文件”的论文,由Jesse Kornblum撰写。该论文以spamsum算法的形式介绍了CTPH的起源和目标。
总结:
计算完整的文件哈希值,例如通过运行sha1sum file
,可以查找完全相同的文件对,在文件总大小上按时间线性排列。
使用固定大小的段进行分段散列意味着如果在文件中间重写字节,您可能仍然可以识别它与参考文件相同。但是,如果插入或删除了字节,则文件其余部分的校验和会发生变化。
CTPH应该允许识别文件之间的相似性,即使存在更大的差异。只要更改不是太大,CTPH就可以处理插入或删除文件的部分内容。该论文声称,只给出文件的前三分之一或最后三分之一,spamsum可以识别它可能来自哪个文件。