我在所有32位整数的空间中有一个连续的整数流,每次更新时我都想知道我遇到的整数分布的精确或近似熵。它可以是整个生命周期中的全局熵,也可以是窗口近似,随着时间的推移衰减旧信息。
是否有人知道已经执行此操作的库或具有此属性的算法?
显然,这是一种流式算法,因为每次迭代范围太昂贵并且计算每次更新的熵。有没有人知道这样的算法或草图数据结构可以做到这一点?
动机和用例是我想检测整数流中的偏差。它应该在整数范围内是均匀的,但在某些时候,由于其他条件,均匀性可能会受到干扰,我认为熵是检测这种情况的最佳方法。理想情况下,我会对计算组件的低熵有一个警报。
感谢您的帮助!
编辑:我实际上发现了一篇完全正确this的论文,但我知道没有现有的实现。重用经过测试,验证的代码比自己实现它更好。 :)