监督学习是分类的同义词,无监督学习是群集的同义词吗?

时间:2015-01-19 15:25:57

标签: machine-learning classification cluster-analysis supervised-learning unsupervised-learning

我是机器学习的初学者,最近阅读了有关受监督和无人监督的机器学习。看起来监督学习是分类的同义词,无监督学习就像聚类一样,是吗?

2 个答案:

答案 0 :(得分:3)

没有

监督学习是指您知道正确答案(目标)。根据类型,可能是classification(分类目标),regression(数字目标)或learning to rank(序数目标)(此列表并非完整,可能还有其他我忘记或不知道的类型。

相反,在无监督的学习环境中,我们不知道正确的答案,我们试图推断,从数据中学习一些结构。无论是簇数还是低维逼近(dimensionality reduction,实际上,人们可能会认为聚类化是极端1D降维的情况)。同样,这可能远离完整性,但总体思路是隐藏的结构,我们试图从数据中发现。

答案 1 :(得分:1)

监督学习是指标记的培训数据。换句话说,您有一个明确定义的目标来优化您的方法。

典型(监督)学习任务是分类和回归:学习预测分类(分类),数值(回归)值或排名(学习排名)。

无意识的学习是一个奇怪的术语。因为大多数时候,这些方法都不是“学习”。因为他们会从中学到什么?您没有培训数据?

有很多无监督方法很难适应“学习”范式。这包括降维等方法,如PCA(迄今为止早于任何“机器学习” - PCA是在1901年提出的,早在计算机之前!)。其中许多只是数据驱动的统计数据(与参数化统计数据相对)。这包括大多数聚类分析方法,离群值检测,......为了理解这些,最好走出“学习”思维模式。许多人难以理解这些方法,因为他们总是在“最小化目标函数f”的思维模式中思考。

考虑例如DBSCAN。最流行的聚类算法之一。它不适合学习范式。它很好地被解释为图论理论构造:(密度 - )连通分量。但它并没有优化任何目标函数。它计算关系的传递闭包;但没有最大化或最小化的功能。

同样,APRIORI发现频繁的项目集;出现超过minsupp次数的项目组合,其中minsupp是用户参数。这是一个非常简单的定义;但是当你有大量数据时,搜索空间可能会非常大。蛮力方法在可接受的时间内没有完成。因此,APRIORI使用巧妙的搜索策略来避免不必要的硬盘访问,计算和内存。但是学习中没有“更差”或“更好”的结果。结果是正确的(完整的)还是没有 - 没有优化结果(仅在算法运行时)。

将这些方法称为“无监督学习”正在将它们挤入一种他们不属于的心态。他们不是“学习”任何东西。既不优化功能,也不使用标签,或使用任何类型的反馈。他们只是从数据库中选择一组特定的对象:APRIORI选择经常同时具有1的列; DBSCAN在密度图中选择连通的组件。结果是否正确。

有些(但不是全部)无监督方法可以形式化为优化问题。在这一点上,它们变得类似于流行的监督学习方法。例如,k-means是最小化问题。 PCA是一个最小化问题,实际上与线性回归密切相关。但它是另一种方式。许多机器学习任务都转化为优化问题;并且可以用通用统计工具来解决,这些工具恰好在机器学习(例如线性编程)中非常流行。然后将所有“学习”部分包含在数据转换到优化器之前的转换方式中。在某些情况下,就像PCA一样,我们发现了一种计算最优解的非迭代方法(1901年)。因此,在这些情况下,您根本不需要通常的优化锤。