我不明白这意味着什么。 在数据库中,元组表示字段值,属性表示表字段? 我对么? 什么是数据挖掘中的类标签?
答案 0 :(得分:22)
非常简短的答案:类标签是离散属性,您希望根据其他属性的值预测其值。 (请阅读答案的其余部分。)
术语类标签通常用于监督机器学习的上下文中,特别是在分类中,其中给出了一组形式为(attribute values, classLabel)
和目标的示例是学习从属性值计算标签的规则。类标签总是采用有限(而不是无限)的不同值。
举一个具体的例子,我们可能会得到一群成年人,我们想预测他们是否无家可归。假设属性是达到的最高教育水平和来源(例子来自(origin, educationalLevel; isHomeless)
:
(Manhattan, PhD; no)
(Brooklyn, Primary school; yes)
...
在这种特殊情况下,isHomeless
是类标签。目标是学习一个函数,该函数计算具有给定属性值的人是否无家可归。 (更具体地说,学习一种在错误数量的某种量化下尽可能少犯错误的函数。)
维基百科文章Supervised learning给出了很好的描述。
关于另一个问题:不,元组表示给定行中属性的整个值集。例如,如果您有一个表Table person(id, name, surname)
,那么表示第一行的元组可能是(0, 'Akhil', 'Mohan')
。
答案 1 :(得分:2)
基本上,类标签(在分类中)可以与响应变量(在回归中)进行比较:我们想要根据其他(独立)变量预测的值。
区别在于类标签通常是离散/分类变量(例如,是 - 否,0-1等),而响应变量通常是连续/实数变量。
您可以在https://math.stackexchange.com/questions/141381/regression-vs-classification找到有关回复变量和类别标签的回归和分类的更多信息。
答案 2 :(得分:0)
以电子邮件垃圾邮件过滤器为例,它对电子邮件是否为垃圾邮件进行分类,为此我们定义了2个类别,分别是垃圾邮件(1类)和非垃圾邮件(2类)。这两个都是类别标签,或者您可以说,如果电子邮件具有某些特定属性,那么它属于垃圾邮件类别还是不属于垃圾邮件类别