在数据挖掘中什么是类标签..?请举个例子

时间:2016-04-01 17:38:56

标签: data-mining

我不明白这意味着什么。 在数据库中,元组表示字段值,属性表示表字段? 我对么? 什么是数据挖掘中的类标签?

3 个答案:

答案 0 :(得分:22)

非常简短的答案:类标签是离散属性,您希望根据其他属性的值预测其值。 (请阅读答案的其余部分。)

术语类标签通常用于监督机器学习的上下文中,特别是在分类中,其中给出了一组形式为(attribute values, classLabel)和目标的示例是学习从属性值计算标签的规则。类标签总是采用有限(而不是无限)的不同值。

举一个具体的例子,我们可能会得到一群成年人,我们想预测他们是否无家可归。假设属性是达到的最高教育水平和来源(例子来自(origin, educationalLevel; isHomeless)

(Manhattan, PhD; no)
(Brooklyn, Primary school; yes)
...

在这种特殊情况下,isHomeless是类标签。目标是学习一个函数,该函数计算具有给定属性值的人是否无家可归。 (更具体地说,学习一种在错误数量的某种量化下尽可能少犯错误的函数。)

维基百科文章Supervised learning给出了很好的描述。

关于另一个问题:不,元组表示给定行中属性的整个值集。例如,如果您有一个表Table person(id, name, surname),那么表示第一行的元组可能是(0, 'Akhil', 'Mohan')

答案 1 :(得分:2)

基本上,类标签(在分类中)可以与响应变量(在回归中)进行比较:我们想要根据其他(独立)变量预测的值。

区别在于类标签通常是离散/分类变量(例如,是 - 否,0-1等),而响应变量通常是连续/实数变量。

您可以在https://math.stackexchange.com/questions/141381/regression-vs-classification找到有关回复变量和类别标签的回归和分类的更多信息。

答案 2 :(得分:0)

以电子邮件垃圾邮件过滤器为例,它对电子邮件是否为垃圾邮件进行分类,为此我们定义了2个类别,分别是垃圾邮件(1类)和非垃圾邮件(2类)。这两个都是类别标签,或者您可以说,如果电子邮件具有某些特定属性,那么它属于垃圾邮件类别还是不属于垃圾邮件类别