我有一张用户评分表,如下所示:
user_id score duration_of_per_play start_date
1 56 313 2018-01-09
2 14 560 2018-08-01
1 56 113 2018-01-09
4 14 340 2018-08-01
....
现在我想使用k-means
算法来聚类用户。
我只知道自己还没有Missing Values
和outliers
。
但我不知道:
centering
数据吗?我有此游戏的42,000条记录。我想根据score
和duration_of_per_play
对用户进行集群。
答案 0 :(得分:1)
K均值本身不需要预先居中,但是由于所使用功能的规模不同,您将从数据标准化中受益。
因此,我建议减去均值并除以STD(当然是每轴),然后仅使用许多k均值实现之一。
我还阅读了有关k均值以及有关选择簇数,处理离群值等的不同选项的信息,但这并不是您所要求的“下一步”。
祝好运!
这是一个很好的实现,您可以从以下内容开始:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html