为什么Hyperloglog工作以及哪些现实问题?

时间:2015-12-18 00:34:01

标签: bigdata mathematical-optimization discrete-mathematics hyperloglog

我知道Hyperloglog是如何工作的,但我想了解它真正适用于哪种实际情况,即使用Hyperloglog是有道理的,为什么?如果您已经用于解决任何现实问题,请分享。我正在寻找的是,考虑到Hyperloglog的标准错误,现在它真正使用的是真实世界的应用程序,为什么它会起作用?

2 个答案:

答案 0 :(得分:0)

“基数估算应用程序”,过于宽泛?我想将其简单地添加为评论但不适合)。

我建议你转向这个主题的众多学术研究;通常学术论文包含“关于该主题的先前研究”以及“主题已被使用的应用程序”的一些信息。您可以从遍历感兴趣的引用开始,如以下文章所述:

  

......这个问题在过去受到了极大的关注   二十年来,发现越来越多的应用程序   网络和流量监控,如蠕虫的检测   传播,网络攻击(例如,通过拒绝服务),以及   网络上基于链接的垃圾邮件[3]。例如,一个数据流   网络由一系列数据包组成,每个数据包都有一个数据包   标头,包含一对(源 - 目标)地址,   其次是一系列具体数据;不同标题的数量   各种时间片中的对(多重集的基数)是一个   检测攻击和监控流量的重要指示   它记录了不同活动流的数量。确实,蠕虫和   病毒通常通过打开大量不同而传播   连接,虽然他们可能很好地通过一个巨大的   交通,他们的活动一旦被接纳就会暴露出来   测量(参见Estan和Varghese在[11]中的清晰阐述)。   基数估计器的其他应用包括数据挖掘   大量的数据集 - 自然语言文本[4,5],生物学   数据[17,18],非常大的结构化数据库,或互联网图,   [22]的作者报告计算增益的因数为   通过概率基数估计得到500+。

答案 1 :(得分:0)

在我的工作中,HyperLogLog用于估计在线服务中遇到不同代码路径的唯一用户或唯一设备的数量。例如,每种类型的服务错误会影响多少用户?有多少用户使用每个功能? HyperLogLog允许我们回答很多有趣的问题。