应用错误收集

Movielens数据集上的KMeans聚类

时间：2018-08-16 13:11:45

标签： python k-means data-science scikit-image

我正在处理Movielens数据集，因此想在其上应用K-Means算法。我想知道要为此选择哪些列，以及如何继续进行操作，或者应该直接使用KNN算法。

1 个答案:

答案 0 :(得分：0)

好吧，K-Means是一种聚类算法，因此您可以使用它根据流派对电影进行聚类。列：movieId，流派

有一个新的数据集，其中包含每部电影的相关标签，因此您还可以基于这些标签对它们进行聚类。

但是，您还可以利用K最近邻居来了解用户之间的相似度。

在评论数据集中，您将使用以下列：列：userId，评分

在电影数据集中，您将使用movieId。想法是找出每个用户观看过哪些电影，然后使用这些电影来计算用户的相似度指数（例如，user1，user2）