Question

我想我理解kmeans算法是如何工作的，但是我在将数据建模成我的数据格式时遇到了很多麻烦。

我正在寻找一种方法来根据我的输入获得最相似的游戏。

示例：

 Original_Game has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes. 
 Original_Game1 has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes.

我认为kmeans可以告诉我哪个Similar_Games与Original_Game和Original_Game1最相似。但我不知道如何在二维图上组织这些数据，如果我不清楚，请告诉我。

Answer 1

您只能对以下数据使用k-means：

可以合理地用数字表示
不是过分离散的（不要在二元向量上运行k-means！）
其中所有尺寸具有大致相同的含义（即x轴上1cm，y轴上约1cm）
您可以在哪里计算表示
其中意味着减少方差，否则它可能不会收敛

K-means易于理解，但对任意数据无效。

你可以通过例如围绕medoids（PAM）的k-medoids /分区来减少这些限制。这是一个密切相关的算法，可以消除大多数这些限制，但代价通常要慢得多。

在我的数据上使用K Means。

1 个答案: