机器学习中的参数,特征和类之间的差异

时间:2016-03-05 21:02:05

标签: machine-learning terminology

我是机器学习和自然语言处理的新手。

我总是在这三个术语之间感到困惑?

根据我的理解:

类:我们的模型输出的各种类别。鉴于人的姓名,确定他/她是男性还是女性?

让我们说我正在使用朴素贝叶斯分类器。

我的功能和参数是什么?

此外,上述单词的一些别名可以互换使用。

谢谢

6 个答案:

答案 0 :(得分:17)

让我们使用分类一个人的性别的例子。你对课程的理解是正确的!给定输入观察,我们的朴素贝叶斯分类器应该输出一个类别。该类是该类别。

要素:朴素贝叶斯分类器中的要素或任何常规的ML分类算法是我们选择定义输入的数据点。对于一个人的例子,我们不可能输入关于一个人的所有数据点;相反,我们选择一些功能来定义一个人(比如“高度”,“重量”和“脚尺寸”)。具体来说,在Naive Bayes Classifier中,我们做出的关键假设是这些特征是独立的(它们不会相互影响):一个人的身高不影响体重并不影响足部尺寸。这个假设可能或不合适,但对于Naive Bayes,我们假设它是真的。在您的示例的特定情况下,输入只是名称,功能可能是字母的频率,元音的数量,名称的长度或后缀/前缀。

参数:Naive Bayes中的参数是我们尝试分类的任何内容的真实分布的估计值。例如,我们可以说大约50%的人是男性,男性身高的分布是高斯分布,平均值为5'7“,标准差为3”。参数将是50%估计值,5'7“平均值估计值和3”标准差估计值。

别名:功能也称为属性。我不知道'参数'的任何常见替代品。

我希望这有用!

答案 1 :(得分:12)

@txizzle很好地解释了朴素贝叶斯的案例。从更广泛的意义上讲:

类:数据的输出类别。您也可以调用这些类别。数据上的标签将指向其中一个类(当然,如果它是分类问题。)

功能:定义问题的特征。这些也称为属性。

参数:您的算法尝试调整以构建精确模型的变量。

作为一个例子,让我们假设您正在尝试根据他/她的本科GPA,考试成绩,推荐分数,项目等各种因素来决定是否允许学生进入加德学校。在这种情况下,上面提到的因素是你的特征/属性,学生是否被录取或不成为你的2个班级,以及决定这些特征如何结合在一起以使你的输出成为你的参数的数字。参数实际代表什么取决于您的算法。对于神经网络,它是突触链接上的权重。同样,对于回归问题,参数是特征组合时的系数。

答案 2 :(得分:5)

采取简单的线性分类问题 -

y = {0 if 5x-3> = 0 else 1}

这里y是类,x是特征,5,3是参数。

答案 3 :(得分:0)

我只是想添加一个区分属性和特征的定义,因为它们经常互换使用,这样做可能是不正确的。我引用了“使用SciKit-Learn和TensorFlow进行动手机器学习”。

  

在机器学习中,属性是一种数据类型(例如,“里程”),   虽然功能根据上下文具有多种含义,但是   通常表示属性及其值(例如,“里程=   15,000”)。许多人交替使用属性和特征一词,   但是。

答案 4 :(得分:0)

我喜欢“使用 Scikit 和 Tensorflow 进行机器学习实践”(作者 Aurelian Geron)中的定义,其中 属性 = 数据类型(例如里程) 特征 = 数据类型 + 值(例如,里程 = 50000)

关于 FEATURE 与 PARAMETER,根据 Geron 书中的定义,我曾经将 FEATURE 解释为变量,将 PARAMETER 解释为权重或系数,例如在下面的模型中 Y = a + b*X

X 是特征 a, b 是参数

但是,在一些出版物中,我看到了以下解释: X 是参数 a, b 是权重

所以,最近,我开始使用以下定义:

FEATURE = RAW DATA 的变量(例如,电子表格中的所有列)

PARAMETER = 模型中使用的变量(即选择模型中的特征后)

WEIGHT = MODEL 参数的系数

想法?

答案 5 :(得分:0)

让我们看看这是否有效:)

假设您有一个 Excel 电子表格,其中包含有关特定产品的数据以及其中存在的 7 种原子元素。

[product] [calcium] [magnesium] [zinc] [iron] [potassium] [nitrogen] [carbon]

Features - 是除 product 之外的每一列,因为所有其他列都是独立的、共存的,对目标(即产品)具有可衡量的影响。您甚至可以选择将其中一些组合起来称为 Essential Elements,即降维以使其更适合分析。术语“降维”仅用于解释,不要与无监督学习中的 PCA 技术混淆。特征与监督学习技术相关。

现在,想象一个很酷的机器,它能够查看上面的数据并推断出产品是什么。

参数就像是您可以操作的机器的特定杠杆和旋塞阀,并确保如果机器说“这是肥皂渣”,它真的/真的。如果您考虑自己进行飞镖板练习,您会对自己做哪些事情来接近靶心(平衡偏差/方差)?

超参数就像参数一样,但在我们谈论的这台机器之外。如果机器零件/机械元件由特定化合物制成,例如碳纤维还是镁合金?这将如何改变机器可以/不能做得更好的事情?

我认为这是对事物的过度简化,但希望可以接受吗?