配置单元中的累积和函数

时间:2015-09-07 12:25:56

标签: sql hive

有没有办法获得今天的日期和今天的日期之前的累积计数(customer_id),我在Hive中运行计数?此格式的日期列:

20120907

我的数据集中有2列,customer_id和date。

我的表中还有分区,customer_id列中的一些值为NULL。我不确定是否有重复,所以我将使用

count(distinct(customer_id))

以下是我的数据示例。

 customer_id  date
10001         20140901
10003         20141001
NULL          20150101
10007         20150102

如果您需要更多信息,请与我们联系。

1 个答案:

答案 0 :(得分:-1)

我遇到同样的问题,每天获得不同用户的累计数量。 这里的困难在于你几乎不能预先聚合每天的计数并总结它们,因为这些天可能有“重叠”的用户,因此你可以多次计算它们而不是一次。

但是我在Gandi API documentation方法上遇到了绊脚石,这种做法基本上每天都在“sketch_set”中对所有用户进行哈希处理,然后联合使用不同的哈希集,并对其应用计数估计。