Movielens数据集上的KMeans聚类

时间:2018-08-16 13:11:45

标签: python k-means data-science scikit-image

我正在处理Movielens数据集,因此想在其上应用K-Means算法。我想知道要为此选择哪些列,以及如何继续进行操作,或者应该直接使用KNN算法。

1 个答案:

答案 0 :(得分:0)

好吧,K-Means是一种聚类算法,因此您可以使用它根据流派对电影进行聚类。 列:movieId,流派

有一个新的数据集,其中包含每部电影的相关标签,因此您还可以基于这些标签对它们进行聚类。

但是,您还可以利用K最近邻居来了解用户之间的相似度。

在评论数据集中,您将使用以下列: 列:userId,评分

在电影数据集中,您将使用movieId。 想法是找出每个用户观看过哪些电影,然后使用这些电影来计算用户的相似度指数(例如,user1,user2)