应用错误收集

（“基数估算应用程序”，过于宽泛？我想将其简单地添加为评论但不适合）。

我建议你转向这个主题的众多学术研究;通常学术论文包含“关于该主题的先前研究”以及“主题已被使用的应用程序”的一些信息。您可以从遍历感兴趣的引用开始，如以下文章所述：

HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm，P. Flageolet等人

......这个问题在过去受到了极大的关注二十年来，发现越来越多的应用程序网络和流量监控，如蠕虫的检测传播，网络攻击（例如，通过拒绝服务），以及网络上基于链接的垃圾邮件[3]。例如，一个数据流网络由一系列数据包组成，每个数据包都有一个数据包标头，包含一对（源 - 目标）地址，其次是一系列具体数据;不同标题的数量各种时间片中的对（多重集的基数）是一个检测攻击和监控流量的重要指示它记录了不同活动流的数量。确实，蠕虫和病毒通常通过打开大量不同而传播连接，虽然他们可能很好地通过一个巨大的交通，他们的活动一旦被接纳就会暴露出来测量（参见Estan和Varghese在[11]中的清晰阐述）。基数估计器的其他应用包括数据挖掘大量的数据集 - 自然语言文本[4,5]，生物学数据[17,18]，非常大的结构化数据库，或互联网图， [22]的作者报告计算增益的因数为通过概率基数估计得到500+。

在我的工作中，HyperLogLog用于估计在线服务中遇到不同代码路径的唯一用户或唯一设备的数量。例如，每种类型的服务错误会影响多少用户？有多少用户使用每个功能？ HyperLogLog允许我们回答很多有趣的问题。

为什么Hyperloglog工作以及哪些现实问题？

2 个答案: