压缩/加密数据中熵与字节分布的比较

时间:2013-02-02 12:52:33

标签: statistics distribution entropy chi-squared

我有一些问题占据了我自己一段时间。

熵测试通常用于识别加密数据。当分析数据的字节均匀分布时,熵达到最大值。熵测试识别加密数据,因为这些数据具有统一分布 - 如压缩数据,在使用熵测试时被分类为加密数据。

示例:某些JPG文件的熵是7,9961532位/字节,某些TrueCrypt容器的熵是7,9998857。这意味着通过熵测试,我无法检测加密数据和压缩数据之间的差异。但是:正如你在第一张图片上看到的那样,显然JPG文件的字节不是均匀分布的(至少不像来自truecrypt-container的字节那样统一)。

另一项测试可以是频率分析。测量每个字节的分布,例如,进行卡方检验以比较分布与假设分布。结果,我得到了一个p值。当我对JPG和TrueCrypt数据执行此测试时,结果是不同的。

JPG文件的p值为0,这意味着统计视图的分布不均匀。 TrueCrypt文件的p值为0.95,这意味着分布几乎完全一致。

我现在的问题:有人可以告诉我为什么熵测试会产生这样的误报吗?是单位的规模,其中表示信息内容(每字节的比特数)?是例如由于规模较小,p值是一个更好的“单位”?

非常感谢你们的任何回答/想法!

编辑:不幸的是我无法发布图片,因为我还没有获得10个声誉:(

0 个答案:

没有答案