使用逻辑表达式的组合过滤大量数据

时间:2015-07-24 08:08:31

标签: search filter redis bigdata hyperloglog

我有大量的数据表示为(例如) -

用户ID |性别|位置|用户类型

根据用例,可能会有更多列。该位置由密码表示。

我最近阅读了有关HyperLogLog和Redis实现的内容。因此,举例来说,我可以方便地为男性用户或某种“类型”的用户计算,我可以合并这些超级日志集来回答诸如此类的问题 -

  

男性和A型的唯一用户数

问题是我必须处理像location这样的列。我无法为每个可能的密码存储集。所以像 -

这样的问题
  

男性且属于PIN码A和B的唯一身份用户数

使用这种方法很难回答。

使用HyperLogLog或redis不是约束。我愿意使用任何可用的工具,只要它能解决问题。

1 个答案:

答案 0 :(得分:0)

您最好的选择是使用日志分析工具,该工具允许任意查询,例如Splunk或其中一个competitors

应该注意的是,这个问题的一般情况(其中你允许对大量收集的数据进行任意查询,另外数据是高维的)是非常困难的。检查您的要求是否可以减少是个好主意(例如,实际上是否有一些您想要计算的特定条件?如果是这样,只需为它们制作专用计数器。)