应用错误收集

我目前正在做一个小项目，事实证明这是一个挑战。这是设置：我有一个相当老的处理器，用于各种各样的产品。大约有500种适用于各种应用程序的固件版本。它们有时相差几个字节〜1k，其他时候只共享5％。现在，我想通过为其创建一个唯一的标识符来标识每个版本。我已经将固件固件二进制文件作为可以使用和训练的文件来提供。

目标是，当有任何设备出现时，我希望尽可能少地读取已安装固件的字节，因为9600 Baud的连接速度相当慢。即使固件总共只有64k左右，但要完全读取它也需要花费一些时间（由于协议开销，时钟速度等因素，大约需要5分钟）

我正在考虑一些逻辑，该逻辑将解析存储的固件文件并确定可以使用其字节中的哪一个来唯一地标识它。无论何时有设备通过，它都会互相读取每个指纹字节，这与旧的T9文本预测非常相似，以缩小候选范围，直到找到正确的固件。为此，我需要建立一个数据库，其中包含最优化的指纹字节集。但是如何训练呢？如何找到500个文件中的最高有效字节？

到目前为止，我已经尝试对文件进行统计分析，并找出文件之间差异最大的前50个字节。问题是，即使占用了50个字节，我也会得到创建相同哈希值的多个版本。

任何可能解决该问题的建议或算法都将受到欢迎！如果您有一个完全不同的方法的想法，我很想听听！

最少的字节来标识文件

1 个答案: