我正在解析某种文件格式,需要在数百万种不同的文件中找到这种格式中最独特的部分。例如,此文件格式的幻数不是唯一的,因为此特定文件格式的每个文件都具有相同的幻数。我正在寻找这个文件格式中最独特的每个文件中存在的某个部分。
我想知道是否有任何工具或脚本可以实现这一目标。我已经尝试了一个非常粗糙的解决方案,即将我的解析程序的输出转储到文本文件(基本上是文件格式的不同字段的列表),制作每个字段的编译文件(用于例如,一个文件将包含我正在查看的每个文件的所有幻数,然后使用命令:
sort <file> | uniq -c | sort
将显示该特定字段的冲突次数。这种方法非常慢,并没有产生任何有希望的东西。
我也看过kDiff3,但它一次只能处理两个文件,当我需要查看大样本时,这是不切实际的。
我为这篇文章中的含糊不清而道歉,但这与工作有关,我不确定我的公司和一般政策。