我有一个按小时(yyyymmddHH)划分的用户访问表,其中包含数百万条记录
列:
visit_ts timestamp,
domain_name string,
page_url string,
user_id
我想建立一个新近度和频率表,每个用户如何访问域。该表格应每天刷新一次,并以最近7天和30天的访问频率为依据,这是第一次(生存时间)和最后一次访问是哪个域。
如何使用Spark2.0实施它?考虑到每天都会发送新一批记录,并且批处理量很大。
user_id: User_1, domain_name: google.com, Last7: 10, Last30: 45, FirstVisit: 2015-04-02, LastVisit: 2019-01-01
user_id: User_1, domain_name: facebook.com, Last7: 20, Last30: 30, FirstVisit: 2016-06-18, LastVisit: 2018-06-31