我正在处理Movielens数据集,因此想在其上应用K-Means算法。我想知道要为此选择哪些列,以及如何继续进行操作,或者应该直接使用KNN算法。
答案 0 :(得分:0)
好吧,K-Means是一种聚类算法,因此您可以使用它根据流派对电影进行聚类。 列:movieId,流派
有一个新的数据集,其中包含每部电影的相关标签,因此您还可以基于这些标签对它们进行聚类。
但是,您还可以利用K最近邻居来了解用户之间的相似度。
在评论数据集中,您将使用以下列: 列:userId,评分
在电影数据集中,您将使用movieId。 想法是找出每个用户观看过哪些电影,然后使用这些电影来计算用户的相似度指数(例如,user1,user2)