Question

我有一张用户评分表，如下所示：

user_id  score duration_of_per_play  start_date
  1        56    313                 2018-01-09
  2        14    560                 2018-08-01
  1        56    113                 2018-01-09
  4        14    340                 2018-08-01
....

现在我想使用k-means算法来聚类用户。我只知道自己还没有Missing Values和outliers。

但我不知道：

下一步是什么？
我需要centering数据吗？

我有此游戏的42,000条记录。我想根据score和duration_of_per_play对用户进行集群。

Answer 1

K均值本身不需要预先居中，但是由于所使用功能的规模不同，您将从数据标准化中受益。
因此，我建议减去均值并除以STD（当然是每轴），然后仅使用许多k均值实现之一。
我还阅读了有关k均值以及有关选择簇数，处理离群值等的不同选项的信息，但这并不是您所要求的“下一步”。
祝好运！

这是一个很好的实现，您可以从以下内容开始：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

如何预处理游戏数据-K-均值

1 个答案: