我研究了一组数据,包括两个数据文件: 第一个包含用户id id艺术家和想要排名的艺术家的用户排名。 第二个数据文件包含id和名称艺术家
我选择的研究问题是: 这位艺术家是否受欢迎?
换句话说,通过使用算法在数据文件中找不到的新歌手,我们会将其归类为艺术家并知道它是否受欢迎。
对于预测步骤,我选择使用逻辑回归方法 但我的问题是早些时候。 从技术上讲,我不知道如何确定现有数据中的哪些人将被定义为不成功的艺术家。
我想到了一些方法,例如:k-means,其中k = 2(但在这种方法中我遇到了函数disance的问题),knn with k = 2等。
我需要指导,指的是我将如何聚类到现有数据 和项目的一般提示。 谢谢。