在导出到Big Query的Firebase分析事件中,似乎有1-2%的重复项。删除这些最佳做法是什么?
Atm客户端不发送带有事件的计数器(每个会话)。这将提供删除重复事件的明确方法,因此我建议Firebase实施该方法。但是,目前,删除重复项的好方法是什么?查看客户端user_pseudo_id,event_timestamp和event_name-字段,并删除除具有相同三元组之外的所有字段?
event_bundle_sequence_id -field如何工作?重复项在此字段中具有相同的值还是不同的?也就是说,重复事件是在同一个包中还是在不同包中发送?
Firebase是否计划在处理过程中更早地删除这些重复项,以便用于Firebase分析本身或导出到Big Query?
用于在一日事件中检查重复项的标准SQL:
with n_dups as
(
SELECT event_name, event_timestamp, user_pseudo_id, count(1)-1 as n_duplicates
FROM `project.dataset.events_20190610`
group by event_name, event_timestamp, user_pseudo_id
)
select n_duplicates, count(1) as n_cases
from n_dups
group by n_duplicates
order by n_cases desc