如何确定count-min草图的宽度和深度?

时间:2016-01-04 14:55:19

标签: sketching

Count-Min草图的宽度(桶的数量)和深度(散列函数的数量)决定了检索的频率估计的准确性。

来自最初的Count-Min作者的2005 paper

  

参数w和d可以通过设置w =⌈e/ε⌉和d =⌈ln1/δ⌉来选择,其中回答查询的误差在概率δ的ε因子内。

如上所述:

w=⌈e/error⌉

d=⌈ln(1/(1−certainty))⌉

来自最初的Count-Min作者的2011 paper

  

假设我们想要一个最多0.1(所有频率之和)的误差,99.9确定性。然后我们想要2 / w = 1/1000,我们设置w = 2000,并且(1/2)^ d = 0.001,即d = log0.001 /log0.5≤10。

导致:

w=⌈2/error⌉

d=⌈ln(1−certainty)/ln(1/2)⌉

然而,误差必须取决于存储在草图中的元素N的总数。元素越多,错误和错误概率就越大。 为了创建初始草图,什么是合适的函数?

0 个答案:

没有答案