德鲁伊中的确切不同计数

时间:2018-08-17 21:21:33

标签: hadoop druid

我已从Hive将数据加载到Druid中,并且未使用任何HLL列。

当我在Druid中运行COUNT(DISTINCT mycol)查询时,我没有得到准确的计数。计数似乎是接近的,但与我在Hive中的计数不匹配。

即使我没有提到HLL的原因,为什么Druid不能给出确切的计数?另外,有没有办法在德鲁伊中获得精确的计数差异?

找到了2014年关于同一问题https://groups.google.com/forum/#!topic/druid-development/AMSOVGx5PhQ的旧帖子,不确定当前的Druid版本是否支持精确的计数差异。

3 个答案:

答案 0 :(得分:1)

在没有DDL和更多线索的情况下很难说出正在发生什么... 我猜是由Druid索引时数据汇总了。当您使用非粒度的索引编制数据时,它可以汇总到粒度级别。

答案 1 :(得分:0)

默认情况下,COUNT(DISTINCT col)聚合函数使用HyperLogLog的变体,它是一种快速的近似非重复计数算法。如果通过查询上下文或通过代理配置将“ useroximateCountDistinct”设置为“ false”,则Druid SQL将切换为精确的非重复计数(请参阅http://druid.io/docs/latest/querying/sql.html

要获取实际的非重复计数,请将druid.sql.planner.useroximatedCountDistinct设置为false。 (请参阅http://druid.io/docs/latest/configuration/index.html#broker-node-configs)另外请注意,精确模式有限制,每个查询只允许一个不同的计数。

答案 2 :(得分:0)

我有类似的问题,就我而言,这是由于Slim在他的回答中提到的数据汇总。

基本上,如果您的数据比 segmentGranularity 更为精细,则它将自动汇总。如果将 segmentGranularity 设置为,则不会汇总。

在我的情况下,我观​​察到的另一件事是,即使我具有段粒度,但无,但是如果我的时间戳和两行不同的所有其他列相同,那么它将自动合并为1行。

这种特殊的行为对我来说还可以,因为我也在寻找与您一样的独特计数。