标记数据和未标记数据之间有什么区别?

时间:2013-10-03 23:05:14

标签: machine-learning

在来自Sebastian Thrum的this视频中,他说监督学习使用“标记”数据,无监督学习使用“未标记”数据。这是什么意思?谷歌搜索“标记与未标记的数据”返回了一堆关于这个主题的学术论文。我只是想知道基本的区别。

6 个答案:

答案 0 :(得分:73)

通常情况下,未标记的数据包含自然或人为创建的工件样本,您可以相对轻松地从世界中获取这些样本。未标记数据的一些示例可能包括照片,录音,视频,新闻文章,推文,X光片(如果您正在使用医疗应用程序),等等。每条未标记数据都没有“解释” - 它只包含数据,没有别的。

标记数据通常会获取一组未标记的数据,并使用某种有意义的“标记”,“标记”或“类”来增加每个未标记数据,这些数据在某种程度上是信息性的或可取的知道。例如,上述类型的未标记数据的标签可能是这张照片是包含马还是母牛,在此录音中发出的单词,在此视频中正在执行的操作类型,此新闻文章的主题是什么是的,这条推文的整体情绪是什么,这张X光片中的点是否是肿瘤等等。

数据标签通常是通过要求人们对给定的未标记数据做出判断来获得的(例如,“这张照片是否包含马或牛?”)并且获得的原始数据要比原始未标记数据贵得多

在获得标记数据集后,可以将机器学习模型应用于数据,以便可以将新的未标记数据呈现给模型,并且可以针对该段未标记数据猜测或预测可能的标签。

机器学习中有许多活跃的研究领域,旨在整合未标记和标记的数据,以构建更好,更准确的世界模型。半监督学习尝试将未标记和标记的数据(或更一般地,仅一些数据点具有标签的未标记数据集合)组合到集成模型中。深度神经网络和特征学习是研究领域,试图单独构建未标记数据的模型,然后将标签中的信息应用于模型的有趣部分。

答案 1 :(得分:6)

机器学习中存在许多不同的问题,因此我将选择分类作为一个例子。在分类中,标记数据通常由一袋多维特征向量(通常称为X)组成,并且对于每个向量,标签Y通常仅是对应于类别的整数,例如。 (face = 1,非face = -1)。 未标记的数据错过了Y分量。 在许多场景中,未标记的数据非常丰富且容易获得,但标记的数据通常需要人/专家进行注释。

答案 2 :(得分:3)

标签数据,由监督学习使用,添加有意义的标签标签类别到观察值(或行)。这些标签可以来自观察或询问人员或专家有关数据。

分类回归可以应用于带标签的数据集进行监督学习。

可以将机器学习模型应用于标记数据,以便可以将新的未标记数据呈现给模型,并且可以猜测或预测可能的标记。 enter image description here

无标签数据,由无监督学习使用,但是没有任何有意义的标签或标签与之关联。 enter image description here 无监督学习比有监督学习更困难的算法,因为我们对数据或预期结果的了解很少或根本不了解。

聚类被认为是用于对数据点或某种程度上相似的对象进行分组的最流行的无监督机器学习技术之一。

无监督学习的模型较少,可用于确保模型结果准确的评估方法也较少。因此,由于机器正在为我们创造成果,因此,无监督学习会创造一个难以控制的环境。

图片由Coursera: Machine Learning with Python

提供

答案 3 :(得分:2)

标记数据是一组已被一个或多个标签标记的样本。标记通常会获取一组未标记的数据,并使用有意义的有意义的标记来扩充该未标记数据的每一条。例如,标签可能指示照片中是否包含马或牛,在录音中说出了哪些单词,在视频中正在执行什么类型的动作,新闻主题是什么,新闻的总体情感是什么?一条推文是,X射线中的点是否是肿瘤等。

答案 4 :(得分:0)

我们可以说标记的是定义明确的数据。例如。电子邮件,IP地址等而未标记的数据是未正确定义的内容。例如。自然模式,鸟类的迁徙模式等。仅凭标签的数据确实有意义,但仅凭标签的数据就可以理解。

答案 5 :(得分:0)

为了更好地回答您的问题,让我们首先定义什么是训练数据,“训练数据只是指用于创建模型的准备好的数据。

现在让我们定义什么是标记学习或监督学习: “您想要预测的值实际上在训练数据中。”这意味着训练数据中的每条记录都包含所有必要的信息(特征和 target value 以及)。

无标签或无监督学习: "您要预测的值不在训练数据中。"

旁注:这两种方法都被使用,但可以说最常见的方法是监督学习。