有没有办法获得今天的日期和今天的日期之前的累积计数(customer_id),我在Hive中运行计数?此格式的日期列:
20120907
我的数据集中有2列,customer_id和date。
我的表中还有分区,customer_id列中的一些值为NULL。我不确定是否有重复,所以我将使用
count(distinct(customer_id))
以下是我的数据示例。
customer_id date
10001 20140901
10003 20141001
NULL 20150101
10007 20150102
如果您需要更多信息,请与我们联系。
答案 0 :(得分:-1)
我遇到同样的问题,每天获得不同用户的累计数量。 这里的困难在于你几乎不能预先聚合每天的计数并总结它们,因为这些天可能有“重叠”的用户,因此你可以多次计算它们而不是一次。
但是我在Gandi API documentation方法上遇到了绊脚石,这种做法基本上每天都在“sketch_set”中对所有用户进行哈希处理,然后联合使用不同的哈希集,并对其应用计数估计。