为使用情况群集准备数据

时间:2016-04-27 17:19:22

标签: machine-learning cluster-analysis data-science data-cleaning bigdata

数据集:我给出了每个客户每天使用产品的分钟数,并尝试对这些数据进行分组,以便找到常见的使用模式。

我的问题:如何格式化数据,例如,一年内使用率高的高级用户看起来与之前只能使用该设备一个月的不同高级用户相同我结束了数据收集?

到目前为止,我已将每个客户转变为一个阵列,其中每个单元格是当天使用的分钟数。该阵列在用户首次使用产品时开始,在用户使用第一年后结束。单元格中的所有条目必须是聚类模型的双精度值(e.x。使用200.0分钟)。我已经考虑过将数据收集的最后一天之后的所有单元格/天设置为-1.0或NULL。这些都是有效的方法吗?如果不是你会建议什么?

1 个答案:

答案 0 :(得分:1)

对于您想要两个用户的问题(一个人每天使用该产品一年,另一个人在一个月内使用该产品的问题),请创建一个新值,其值为:

avg_usage per time_bin

time_bin可以是一个月,一天或另一个最符合您需求的时间段。 这样,使用产品的用户,例如每天200分钟,一年,将获得:

200 * 30 * 12 / 12 = 6000 minutes per month

和上个月加入的其他用户也将获得,完全相同的用法将得到:

200 * 30 * 1 / 1 = 6000 minutes per month.

这样,开始使用产品并不重要,唯一重要的是使用率。

您可能会考虑的重要事项是,产品可能会被遗忘一段时间。例如,一台电脑,我要去度假。那些天我没有使用我的电脑,没有(可能)影响我对这个产品的一般用法。因此,根据您的数据,产品和直觉,您可以考虑消除我提到的差距,而不是在计算中考虑它。

用户使用您的产品的时间可能是一个信号,但如果他确实只是在一段时间之前开始,并且仍然使用它直到今天,它可能是您需要考虑的事情,并且使用时,这种平均分级技术可能有所帮助。