我正在尝试创建一个报告,报告7天移动窗口中事件日志中显示的不同数量的电子邮件地址。使用group by和COUNTD很容易做到这一点,但还是没能弄清楚如何进行7天移动窗口重复播放。
例如:有人在12月15日和12月17日举行了一次活动。因为我按周分组并在电子邮件上做COUNTD,这个骗局被检测到了。但是,如果有人在13日放置了一个事件而在14日放置了另一个事件,则不会将其视为重复事件,因为新组将在14日开始。我在两组中分别获得了1个事件。
如何检测组/分区中的欺骗?请帮忙。我的样本数据在
之下Field1 Field2
sample@email.com 13-Dec-15
sample2@email.com 14-Dec-15
sample@email.com 15-Dec-15
sample3@email.com 15-Dec-15
sample3@email.com 16-Dec-15
我当前的输出是
Period,NumDistinctEmails
7Dec - 13Dec, 1
14Dec - 20Dec, 3
我想要的输出(因为样本@ email在表格中是重复的)
Period,NumDistinctEmails
7Dec - 13Dec, 1
14Dec - 20Dec, 2