字节难度的高效文件排序?

时间:2018-03-10 19:43:49

标签: algorithm filesystems libraries

我正在尝试找到订购两个文件列表的“最佳”方式,以便它们之间的差异补丁一般很小。

这样做的方法没有任何其他可能容易失败的“启发式”(自然名称顺序,解析索引文件,如提示以找出自然顺序命令)似乎是分析两个集合上文件的字节数,并且数字输出一个最小化它们之间“距离”的序列。

这实际上提醒我应用于文件中字节段的Levenshtein距离(可能具有相同文件的约束段以便最小化排列)。周围有一个图书馆可以为我找出这个吗?请注意,“技术上相同”的文件的页眉或页脚可能不同(例如:不同的转储格式)。

我的主要用例是弄清楚两种cd转储之间的距离。 cd转储以不同方式分段是很正常的。我可以从索引文件(cue,ccd等)中找出它们的“自然”顺序,但为什么要浪费机会获得一般适用的东西(适用于源或目标中的额外文件,或以不同方式分割的文件或比较不是cd转储的东西)?

如果你知道的话,我更喜欢python中的库吗?

BTW我已经有了一些实现zxd3但是它几乎使用了'自然顺序'启发式,我想改进它(并使它在两个以上的拉链上工作)。

0 个答案:

没有答案