应用错误收集

我研究了一组数据，包括两个数据文件：第一个包含用户id id艺术家和想要排名的艺术家的用户排名。第二个数据文件包含id和名称艺术家

我选择的研究问题是：这位艺术家是否受欢迎？

换句话说，通过使用算法在数据文件中找不到的新歌手，我们会将其归类为艺术家并知道它是否受欢迎。

对于预测步骤，我选择使用逻辑回归方法但我的问题是早些时候。从技术上讲，我不知道如何确定现有数据中的哪些人将被定义为不成功的艺术家。

我想到了一些方法，例如：k-means，其中k = 2（但在这种方法中我遇到了函数disance的问题），knn with k = 2等。

我需要指导，指的是我将如何聚类到现有数据和项目的一般提示。谢谢。