我有这个数据集:
我被问到:定义一个指标和一个相应的函数,以确定在过去一年中积极的客户参与方面,哪些用户增长最快。根据定义“增长最快的用户”的指标报告前10位用户。
到目前为止,我已经创建了一个相关矩阵:
user_id content_count total_engagement date_Delta
user_id 1.000000 -0.056683 0.027150 -0.000014
content_count -0.056683 1.000000 0.215149 -0.007097
total_engagement 0.027150 0.215149 1.000000 0.002337
date_Delta -0.000014 -0.007097 0.002337 1.000000
如您所见,content_count和total_engagement具有最佳的相关性。
接下来我要做的是创建一个每个user_id及其total_engagement的图形,以查看总体线性度,这将表明哪些用户的total_engagement大大增加。
尽管如此,我总体上还是对如何为提出的问题定义指标感到困惑。我想我只是想发表这篇文章,看看我是否可以让任何人提出一些想法。
答案 0 :(得分:1)
您必须具有一个新字段,该字段将说明user_id的每日参与度。诸如total_management / date_delta之类的东西,可以提供实际的每日参与度。