如何找到许多文件的最独特的文件格式部分?

时间:2015-01-23 22:13:00

标签: file parsing

我正在解析某种文件格式,需要在数百万种不同的文件中找到这种格式中最独特的部分。例如,此文件格式的幻数不是唯一的,因为此特定文件格式的每个文件都具有相同的幻数。我正在寻找这个文件格式中最独特的每个文件中存在的某个部分。

我想知道是否有任何工具或脚本可以实现这一目标。我已经尝试了一个非常粗糙的解决方案,即将我的解析程序的输出转储到文本文件(基本上是文件格式的不同字段的列表),制作每个字段的编译文件(用于例如,一个文件将包含我正在查看的每个文件的所有幻数,然后使用命令:

sort <file> | uniq -c | sort

将显示该特定字段的冲突次数。这种方法非常慢,并没有产生任何有希望的东西。

我也看过kDiff3,但它一次只能处理两个文件,当我需要查看大样本时,这是不切实际的。

我为这篇文章中的含糊不清而道歉,但这与工作有关,我不确定我的公司和一般政策。

0 个答案:

没有答案