我想测试第三方(包括“闭源”)工具(如同步,重复数据删除......)是否存在具有相同大小和摘要校验和的文件(流行的CRC32,MD5,SHA-) 1 ...等)。 其中一些散列方法存在已知的漏洞,因此存在产生冲突的方法。
你知道这些数据集的来源(除了蛮力试图创建一些:))或生成这样的数据集吗?
要明确这一点:我对具有相同校验和,文件大小但内容不同的文件集感兴趣!
答案 0 :(得分:0)
我们知道md5的弱点:
2005年,研究人员能够创建成对的PostScript 具有相同散列的文档[24]和X.509证书[25]。后来 那一年,MD5的设计师Ron Rivest写道,“md5和sha1都是 明显破碎(在抗冲击性方面)。“[26]
来源:http://en.wikipedia.org/wiki/MD5
我们可以在维基百科上找到并在以下SO主题中找到:
Create your own MD5 collisions
示例对。
问题仍然存在 - >关于好的数据集,有更多的例子。 (或者很好的发电机)。