我有大量的数据表示为(例如) -
用户ID |性别|位置|用户类型
根据用例,可能会有更多列。该位置由密码表示。
我最近阅读了有关HyperLogLog和Redis实现的内容。因此,举例来说,我可以方便地为男性用户或某种“类型”的用户计算,我可以合并这些超级日志集来回答诸如此类的问题 -
男性和A型的唯一用户数
问题是我必须处理像location这样的列。我无法为每个可能的密码存储集。所以像 -
这样的问题使用这种方法很难回答。男性且属于PIN码A和B的唯一身份用户数
使用HyperLogLog或redis不是约束。我愿意使用任何可用的工具,只要它能解决问题。
答案 0 :(得分:0)
您最好的选择是使用日志分析工具,该工具允许任意查询,例如Splunk或其中一个competitors
应该注意的是,这个问题的一般情况(其中你允许对大量收集的数据进行任意查询,另外数据是高维的)是非常困难的。检查您的要求是否可以减少是个好主意(例如,实际上是否有一些您想要计算的特定条件?如果是这样,只需为它们制作专用计数器。)