在我的数据上使用K Means。

时间:2012-06-17 07:01:29

标签: algorithm cluster-analysis

我想我理解kmeans算法是如何工作的,但是我在将数据建模成我的数据格式时遇到了很多麻烦。

我正在寻找一种方法来根据我的输入获得最相似的游戏。

示例:

 Original_Game has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes. 
 Original_Game1 has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes.

我认为kmeans可以告诉我哪个Similar_Games与Original_Game和Original_Game1最相似。但我不知道如何在二维图上组织这些数据,如果我不清楚,请告诉我。

1 个答案:

答案 0 :(得分:0)

您只能对以下数据使用k-means:

  • 可以合理地用数字表示
  • 不是过分离散的(不要在二元向量上运行k-means!)
  • 其中所有尺寸具有大致相同的含义(即x轴上1cm,y轴上约1cm)
  • 您可以在哪里计算表示
  • 其中意味着减少方差,否则它可能不会收敛

K-means易于理解,但对任意数据无效。

你可以通过例如围绕medoids(PAM)的k-medoids /分区来减少这些限制。这是一个密切相关的算法,可以消除大多数这些限制,但代价通常要慢得多。