我有一个问题,我试图在python中使用有监督的学习。我有一系列x,y坐标,我知道这些坐标属于一个数据集中的标签。在另一个我只有x,y坐标。我将使用一组来训练另一组,我的方法是监督学习和使用分类算法(线性判别分析),因为标签的数量是离散的。虽然它们是离散的,但它们的数量很大(n = ~80,000)。我的问题是,在哪种标签应该考虑回归分类,其中回归更适合连续标签。我使用SciKit作为我的机器学习包,并使用astronml.orgs优秀的tutorial作为指导。
答案 0 :(得分:0)
这与数字无关。这是关于连续与否。如果你有80,000个班级甚至更多,那没关系;只要邻居类之间没有相关性(例如,类i和i + 1),就应该使用分类(不是回归)。
回归仅在标签连续时才有意义(例如,实数)或至少在相邻类之间存在相关性时(例如,当标签显示某事物的数量时,您可以进行回归然后向上舍入结果)。