statistics - 压缩/加密数据中熵与字节分布的比较

我有一些问题占据了我自己一段时间。

熵测试通常用于识别加密数据。当分析数据的字节均匀分布时，熵达到最大值。熵测试识别加密数据，因为这些数据具有统一分布 - 如压缩数据，在使用熵测试时被分类为加密数据。

示例：某些JPG文件的熵是7,9961532位/字节，某些TrueCrypt容器的熵是7,9998857。这意味着通过熵测试，我无法检测加密数据和压缩数据之间的差异。但是：正如你在第一张图片上看到的那样，显然JPG文件的字节不是均匀分布的（至少不像来自truecrypt-container的字节那样统一）。

另一项测试可以是频率分析。测量每个字节的分布，例如，进行卡方检验以比较分布与假设分布。结果，我得到了一个p值。当我对JPG和TrueCrypt数据执行此测试时，结果是不同的。

JPG文件的p值为0，这意味着统计视图的分布不均匀。 TrueCrypt文件的p值为0.95，这意味着分布几乎完全一致。

我现在的问题：有人可以告诉我为什么熵测试会产生这样的误报吗？是单位的规模，其中表示信息内容（每字节的比特数）？是例如由于规模较小，p值是一个更好的“单位”？

非常感谢你们的任何回答/想法！

编辑：不幸的是我无法发布图片，因为我还没有获得10个声誉:(

压缩/加密数据中熵与字节分布的比较

0 个答案: