Count-Min草图的宽度(桶的数量)和深度(散列函数的数量)决定了检索的频率估计的准确性。
来自最初的Count-Min作者的2005 paper:
参数w和d可以通过设置w =⌈e/ε⌉和d =⌈ln1/δ⌉来选择,其中回答查询的误差在概率δ的ε因子内。
如上所述:
w=⌈e/error⌉
d=⌈ln(1/(1−certainty))⌉
来自最初的Count-Min作者的2011 paper:
假设我们想要一个最多0.1(所有频率之和)的误差,99.9确定性。然后我们想要2 / w = 1/1000,我们设置w = 2000,并且(1/2)^ d = 0.001,即d = log0.001 /log0.5≤10。
导致:
w=⌈2/error⌉
d=⌈ln(1−certainty)/ln(1/2)⌉
然而,误差必须取决于存储在草图中的元素N的总数。元素越多,错误和错误概率就越大。 为了创建初始草图,什么是合适的函数?