使用Spark计算用户新近度和访问频率

时间:2019-04-02 21:41:38

标签: apache-spark

我有一个按小时(yyyymmddHH)划分的用户访问表,其中包含数百万条记录

列:

visit_ts timestamp, 
domain_name string,
page_url string, 
user_id

我想建立一个新近度和频率表,每个用户如何访问域。该表格应每天刷新一次,并以最近7天和30天的访问频率为依据,这是第一次(生存时间)和最后一次访问是哪个域。

如何使用Spark2.0实施它?考虑到每天都会发送新一批记录,并且批处理量很大。

user_id: User_1, domain_name: google.com, Last7: 10, Last30: 45, FirstVisit: 2015-04-02, LastVisit: 2019-01-01
user_id: User_1, domain_name: facebook.com, Last7: 20, Last30: 30, FirstVisit: 2016-06-18, LastVisit: 2018-06-31

0 个答案:

没有答案