如何预处理游戏数据-K-均值

时间:2018-11-29 06:42:07

标签: python cluster-analysis data-mining k-means

我有一张用户评分表,如下所示:

user_id  score duration_of_per_play  start_date
  1        56    313                 2018-01-09
  2        14    560                 2018-08-01
  1        56    113                 2018-01-09
  4        14    340                 2018-08-01
....

现在我想使用k-means算法来聚类用户。 我只知道自己还没有Missing Valuesoutliers

但我不知道:

  1. 下一步是什么?
  2. 我需要centering数据吗?

我有此游戏的42,000条记录。我想根据scoreduration_of_per_play对用户进行集群。

1 个答案:

答案 0 :(得分:1)

K均值本身不需要预先居中,但是由于所使用功能的规模不同,您从数据标准化中受益。
因此,我建议减去均值并除以STD(当然是每轴),然后仅使用许多k均值实现之一。
我还阅读了有关k均值以及有关选择簇数,处理离群值等的不同选项的信息,但这并不是您所要求的“下一步”。
祝好运!


这是一个很好的实现,您可以从以下内容开始:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html