Question

我正在解析某种文件格式，需要在数百万种不同的文件中找到这种格式中最独特的部分。例如，此文件格式的幻数不是唯一的，因为此特定文件格式的每个文件都具有相同的幻数。我正在寻找这个文件格式中最独特的每个文件中存在的某个部分。

我想知道是否有任何工具或脚本可以实现这一目标。我已经尝试了一个非常粗糙的解决方案，即将我的解析程序的输出转储到文本文件（基本上是文件格式的不同字段的列表），制作每个字段的编译文件（用于例如，一个文件将包含我正在查看的每个文件的所有幻数，然后使用命令：

sort <file> | uniq -c | sort

将显示该特定字段的冲突次数。这种方法非常慢，并没有产生任何有希望的东西。

我也看过kDiff3，但它一次只能处理两个文件，当我需要查看大样本时，这是不切实际的。

我为这篇文章中的含糊不清而道歉，但这与工作有关，我不确定我的公司和一般政策。