监督学习和无监督学习有什么区别?

时间:2009-12-02 10:37:32

标签: machine-learning artificial-intelligence supervised-learning unsupervised-learning

在人工智能和机器学习方面,有监督和无监督学习有什么区别? 您能举例说明一个基本的,简单的解释吗?

30 个答案:

答案 0 :(得分:470)

因为你问这个非常基本的问题,看起来值得指明机器学习本身是什么。

机器学习是一类数据驱动的算法,即与“普通”算法不同,它是“告诉”什么是“好答案”的数据。示例:用于图像中的面部检测的假设非机器学习算法将尝试定义面部是什么(圆形皮肤状彩色圆盘,具有您期望眼睛的暗区等)。机器学习算法不会有这样的编码定义,但会“逐个学习”:你会展示几个面部和非面部的图像,一个好的算法最终会学习并能够预测是否看不见图像是一张脸。

这个特殊的人脸检测示例是监督,这意味着您的示例必须标记为,或明确说明哪些是面孔,哪些不是。< / p>

无监督算法中,您的示例不是标记为,即您没有说什么。当然,在这种情况下,算法本身不能“发明”面部是什么,但是它可以尝试将cluster数据分成不同的组,例如,它可以区分面部与景观非常不同,景观与马匹非常不同。

由于另一个答案提及它(但是,以不正确的方式):有“中间”形式的监督,即半监督主动学习。从技术上讲,这些是监督方法,其中有一些“智能”方法来避免大量标记的例子。在主动学习中,算法本身决定你应该标记哪个东西(例如,它可以非常确定景观和马,但它可能会要求你确认大猩猩是否确实是一张脸的图片)。在半监督学习中,有两种不同的算法从标记的例子开始,然后相互“告诉”他们对大量未标记数据的思考方式。从他们的“讨论”中他们学习。

答案 1 :(得分:51)

监督学习是指您为算法提供的数据被“标记”或“标记”,以帮助您的逻辑做出决策。

示例:贝叶斯垃圾邮件过滤,您必须将项目标记为垃圾邮件以优化结果。

无监督学习是在没有原始数据以外的任何外部输入的情况下尝试查找相关性的算法类型。

示例:数据挖掘聚类算法。

答案 2 :(得分:29)

监督学习

训练数据包含输入向量及其对应目标向量的示例的应用称为监督学习问题。

无监督学习

在其他模式识别问题中,训练数据由一组输入向量x组成,没有任何相应的目标值。这种无监督学习问题的目标可能是在数据中发现类似示例的组,称为聚类

模式识别和机器学习(Bishop,2006)

答案 3 :(得分:17)

在监督学习中,输入x提供了预期结果y(即输入为x时模型应该产生的输出),这通常是称为相应输入x的“类”(或“标签”)。

在无监督学习中,未提供示例x的“类”。因此,无监督学习可以被认为是在未标记数据集中找到“隐藏结构”。

监督学习的方法包括:

  • 分类(1R,朴素贝叶斯,决策树学习算法等 作为ID3 CART,等等)

  • 数值预测

无监督学习的方法包括:

  • 群集(K-means,层次聚类)

  • 关联规则学习

答案 4 :(得分:10)

例如,经常训练神经网络是有监督的学习:你告诉网络哪个类对应你正在喂食的特征向量。

聚类是无监督学习:您让算法决定如何将样本分组到共享公共属性的类中。

无监督学习的另一个例子是Kohonen's self organizing maps

答案 5 :(得分:10)

我可以告诉你一个例子。

假设您需要识别哪辆车是汽车,哪辆是摩托车。

监督学习案例中,您的输入(训练)数据集需要进行标记,也就是说,对于输入(训练)数据集中的每个输入元素,您应指定它是否代表汽车或摩托车。

无监督学习案例中,您不标记输入。无监督模型将输入聚类成基于例如聚类的聚类。关于类似的功能/属性。因此,在这种情况下,没有像“汽车”这样的标签。

答案 6 :(得分:4)

我一直认为,无监督和有监督的学习之间的区别是任意的,有点令人困惑。两种情况之间没有真正的区别,相反,存在一系列情况,其中算法可以具有或多或少的“监督”。半监督学习的存在是线条模糊的一个明显例子。

我倾向于将监督视为向算法提供关于应该首选哪些解决方案的反馈。对于传统的监督设置,例如垃圾邮件检测,您可以告诉算法“不要在训练集上犯任何错误”;对于传统的无监督设置,例如群集,您告诉算法“彼此接近的点应该在同一个群集中”。碰巧的是,第一种形式的反馈比后者更具体。

简而言之,当有人说“受监督”时,请考虑分类,当他们说“无人监督”时会想到群集,并且尽量不要过于担心。

答案 7 :(得分:4)

机器学习 它探索了可以从数据中学习和预测数据的算法的研究和构建。这些算法通过从示例输入构建模型来运行,以便将数据驱动的预测或决策表达为输出,而不是遵循严格的静态程序指令。

监督学习: 它是从标记的训练数据推断功能的机器学习任务。训练数据由一组训练样例组成。在监督学习中,每个示例是由输入对象(通常是向量)和期望输出值(也称为监督信号)组成的对。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例。

计算机会显示示例输入及其所需的输出,由教师&#34;给出,目的是学习将输入映射到输出的一般规则。具体来说,是监督学习算法采用一组已知的输入数据和对数据(输出)的已知响应,并训练模型以生成对新数据响应的合理预测。

无监督学习 它没有老师就学习。一个基本的 您可能想要处理数据的事情是将其可视化。从无标签数据推断隐藏结构的函数是机器学习任务。由于给予学习者的示例未标记,因此没有错误或奖励信号来评估潜在的解决方案。这将无监督学习与有监督学习区分开来。无监督学习使用尝试查找自然分区的过程 模式。

无监督学习没有基于预测结果的反馈,即没有教师可以纠正你。在无监督学习方法下,没有提供标签的例子,在学习过程中没有输出的概念处理。因此,可以通过学习方案/模型来查找模式或发现输入数据的组

  

当你需要一个大的时候,你应该使用无监督的学习方法   培训模型的数据量,以及意愿和能力   进行实验和探索,当然还有一个不太好的挑战   通过更成熟的方法解决。无监督学习是   可以学习比监督更大更复杂的模型   学习。Here就是一个很好的例子

答案 8 :(得分:3)

我会尽量保持简单。

监督学习:在这种学习技巧中,我们获得了一个数据集,系统已经知道数据集的正确输出。所以在这里,我们的系统通过预测自己的价值来学习。然后,它使用成本函数进行精度检查,以检查其预测与实际输出的接近程度。

无监督学习:在这种方法中,我们很少或根本不知道我们的结果是什么。因此,我们从数据中导出结构,我们不知道变量的影响。 我们通过基于数据中变量之间的关系对数据进行聚类来构建结构。 在这里,我们没有基于我们预测的反馈。

答案 9 :(得分:3)

监督学习

监督学习基于训练数据样本 来自已分配正确分类的数据源。 这些技术用于前馈或MultiLayer 感知器(MLP)模型。这些MLP有三个与众不同 特性:

  1. 不属于输入的一层或多层隐藏神经元 或输出网络层,使网络能够学习和 解决任何复杂问题
  2. 神经元活动中反映的非线性是 可区分的,
  3. 网络的互连模型具有很高的可信度 连接。
  4. 这些特征以及通过培训学习 解决困难和多样化的问题。通过学习 在监督的ANN模型中训练也称为误差反向传播算法。纠错 - 学习 算法根据输入输出训练网络 采样并发现误差信号,这是差异 计算输出和所需输出并调整 神经元的突触重量与神经元的比例成正比 错误信号的产物和输入实例 突触重量。基于这个原理,错误回来了 传播学习分两次进行:

    转发通行证:

    这里,输入向量被呈现给网络。这个输入信号由神经元通过网络向前传播,神经元传播,并在输出端出现 网络作为输出信号:y(n) = φ(v(n))其中v(n)是由v(n) =Σ w(n)y(n).定义的神经元的诱导局部场。在输出层o(n)计算的输出与期望值进行比较响应d(n)并找到该神经元的错误e(n)。此过程中网络的突触权重保持不变。

    落后通行证:

    源自该层输出神经元的错误信号通过网络向后传播。这计算每层中每个神经元的局部梯度,并允许网络的突触权重根据delta规则进行更改:

    Δw(n) = η * δ(n) * y(n).
    

    这种递归计算继续进行,前向传递后跟每个输入模式的反向传递,直到网络收敛。

    人工神经网络的监督学习范式是有效的,可以找到几个线性和非线性问题的解决方案,如分类,工厂控制,预测,预测,机器人等。

    无监督学习

    自组织神经网络学习使用无监督学习算法来识别未标记输入数据中的隐藏模式。这种无监督指的是学习和组织信息而不提供错误信号来评估潜在解决方案的能力。在无监督学习中缺乏学习算法的方向有时可能是有利的,因为它允许算法回顾先前未考虑过的模式。自组织映射(SOM)的主要特征是:

    1. 将任意维度的输入信号模式转换为 一维或二维地图并自适应地执行此转换
    2. 网络代表单一的前馈结构 计算层由排列成行的神经元组成 列。在每个表示阶段,保持每个输入信号 在适当的背景下,
    3. 处理密切相关信息的神经元很接近 他们一起通过突触连接进行交流。
    4. 计算层也称为竞争层,因为层中的神经元彼此竞争变得活跃。因此,这种学习算法称为竞争算法。 SOM中的无监督算法 分三个阶段进行:

      比赛阶段:

      对于呈现给网络的每个输入模式x,计算具有突触权重w的内积,并且竞争层中的神经元发现诱导神经元和突触之间竞争的判别函数接近欧几里德距离输入向量的权重向量在竞赛中被宣布为获胜者。该神经元被称为最佳匹配神经元,

      i.e. x = arg min ║x - w║.
      

      合作阶段:

      获胜神经元确定协作神经元的拓扑邻域h的中心。这是通过横向交互d来执行的 合作神经元。这个拓扑邻域在一段时间内缩小了它的大小。

      自适应阶段:

      使得获胜神经元及其邻域神经元能够增加与输入模式相关的判别函数的各个值 通过适当的突触体重调整,

       Δw = ηh(x)(x –w).
      

      在重复呈现训练模式后,突触权重向量倾向于遵循由于邻域更新而导致的输入模式的分布,因此ANN在没有主管的情况下进行学习。

      自组织模型自然地代表了神经生物学行为,因此被用于许多现实世界的应用,如聚类,语音识别,纹理分割,矢量编码等。

      Reference.

答案 10 :(得分:3)

监督学习:您提供各种标记的示例数据作为输入,以及正确的答案。该算法将从中学习,并根据此后的输入开始预测正确的结果。 示例:电子邮件垃圾邮件过滤器

无监督学习:您只是提供数据而不会告诉任何内容 - 例如标签或正确答案。算法自动分析数据中的模式。 示例:Google新闻

答案 11 :(得分:2)

监督学习

  

在此,用于训练网络的每个输入模式都是   与输出模式相关联,输出模式是目标或期望的   图案。在学习期间假定教师在场   进程,当网络的计算之间进行比较时   输出和正确的预期输出,以确定错误。该   然后可以使用错误来更改网络参数,从而导致   表现有所改善。

无监督学习

  

在这种学习方法中,目标输出不会显示给   网络。就好像没有老师提出所期望的那样   因此,系统通过发现和学习来学习它自己   适应输入模式中的结构特征。

答案 12 :(得分:2)

监督学习,给出答案数据。

如果邮件标记为垃圾邮件/非垃圾邮件,请了解垃圾邮件过滤器。

鉴于诊断为患有或不患有糖尿病的患者的数据集,学会将新患者分类为患有糖尿病。

无监督学习,如果没有答案的数据,让电脑分组。

鉴于在网络上发现了一系列新闻文章,请将这组文章分组到同一个故事中。

给定自定义数据数据库,自动发现细分市场并将客户分组到不同的细分市场。

Reference

答案 13 :(得分:2)

监督学习

您有输入x和目标输出t。因此,您将训练算法以概括到缺少的部分。受到监督是因为给出了目标。您是告诉算法的主管:对于示例x,您应该输出t!

无监督学习

尽管通常在此方向上进行细分,聚类和压缩,但我很难为此找到一个很好的定义。

我们以auto-encoders for compression为例。虽然您只给出了输入x,但人工工程师如何告诉算法目标也是x。因此从某种意义上说,这与监督学习没有什么不同。

对于聚类和细分,我不太确定它是否真的符合机器学习的定义(请参见other question)。

答案 14 :(得分:2)

监督学习: 说一个孩子去幼儿园。老师给他看了3个玩具屋,球和汽车。现在老师给了他10个玩具。 他将根据他以前的经验将它们分为3个盒子,球和汽车。 因此,kid首先受到老师的监督,以获取正确答案。然后他在未知玩具上接受了测试。 aa

无监督学习: 再以幼儿园为例。给孩子一个10个玩具。他被告知将类似的人细分。 因此,根据形状,大小,颜色,功能等特征,他将尝试将3个组说成A,B,C并将其分组。 bb

“监督”一词表示正在对机器进行监督/指示,以帮助机器找到答案。学习了说明后,就可以轻松预测新情况。

无监督意味着没有监督或指示如何找到答案/标签,并且机器将使用其智能来在我们的数据中查找某些模式。在这里它不会做出预测,只会尝试查找具有相似数据的聚类。

答案 15 :(得分:1)

监督学习:您已经标记了数据并且必须从中学习。例如房屋数据以及价格,然后学会预测价格

无监督学习:您必须先找到趋势然后进行预测,而无需给出任何先前的标签。 例如班上有不同的人,然后有一个新的人来,那么这个新学生属于哪个组。

答案 16 :(得分:0)

神经网络的学习算法可以是有监督的,也可以是无监督的。

如果期望的输出已经知道,则据说神经网络学习监督。示例:模式关联

无监督学习的神经网络没有这样的目标输出。无法确定学习过程的结果是什么样。在学习过程中,根据给定的输入值,将这种神经网络的单位(权重值)“安排”在一定范围内。目标是在值范围的某些区域将相似的单位组合在一起。示例:模式分类

答案 17 :(得分:0)

监督学习中,我们知道输入和输出应该是什么。例如,给定一组汽车。我们必须找出哪些是红色的,哪些是蓝色的。

然而,无监督学习是我们必须在很少或不知道输出应该是什么的情况下找出答案的地方。例如,学习者可能能够建立一个模型,根据面部模式和单词的相关性来检测人们何时在微笑,例如你正在微笑的是什么?&#34;。

答案 18 :(得分:0)

机器学习是您尝试制造机器来模仿人类行为的领域。

您就像婴儿一样训练机器,人类学习,识别特征,识别模式和训练自己的方式,就像您通过提供具有各种特征的数据来训练机器的方式一样。机器算法识别数据中的模式并将其分类为特定类别。

机器学习大致分为监督学习和无监督学习两类。

监督学习是指输入的矢量/数据具有对应的目标值(输出)的概念,另一方面,监督学习是指输入的矢量/数据仅具有对应的目标值的概念。

监督学习的一个例子是手写数字识别,其中您具有带有对应数字[0-9]的数字图像,而监督学习的一个示例是通过购买行为对客户进行分组。

答案 19 :(得分:0)

已经有许多答案详细解释了差异。我在codeacademy上找到了这些gif,它们通常可以帮助我有效地解释差异。

监督学习

enter image description here 请注意,训练图像在此处带有标签,并且模型正在学习图像的名称。

无监督学习

enter image description here 注意,这里要做的只是分组(聚类),模型对任何图像一无所知。

答案 20 :(得分:0)

监督学习/预测模型: 顾名思义,预测模型用于根据历史数据预测未来结果。通常,从一开始就对预测模型给出明确的指导,例如需要学习什么以及如何学习。这些学习算法称为“监督学习”。

例如:当营销公司试图找出哪些客户可能流失时,使用“监督学习”。我们还可以使用它来预测发生地震,龙卷风等危险的可能性,从而确定总保险价值。使用的算法示例包括:最近邻居,朴素贝叶斯,决策树,回归等。

无监督学习/描述性模型: 它用于训练描述性模型,在这些模型中没有设置目标,并且没有一个功能比另一个功能重要。无监督学习的情况可以是:当零售商希望找出产品的组合是什么时,顾客往往会更频繁地购买商品。此外,在制药工业中,无监督学习可用于预测哪些疾病可能与糖尿病一起发生。此处使用的算法示例为:K-表示聚类算法

答案 21 :(得分:0)

监督学习

监督学习是我们知道原始输入的输出的地方,即数据被标记,以便在机器学习模型的训练期间它将了解在给定输出中需要检测的内容,并将在训练以检测预先标记的对象为基础,它将检测到我们在训练中提供的类似对象。

在这里,算法将知道什么是数据的结构和模式。监督学习用于分类

例如,我们可以有一个形状为正方形,圆形和三角形的不同对象,我们的任务是排列相同类型的形状 标记的数据集已标记了所有形状,我们将在该数据集上训练机器学习模型,并根据训练日期集开始检测形状。

无监督学习

无监督学习是一种无指导的学习,其最终结果未知,它将对数据集进行聚类,并根据对象的相似属性将对象分成不同的束并检测对象。

此处算法将在原始数据中搜索不同的模式,并基于此模式将数据聚类。无监督学习用于聚类。

作为一个例子,我们可以有多个形状分别为正方形,圆形,三角形的对象,因此它将根据对象的属性生成束,如果一个对象有四个边,则将其视为正方形,如果有三个,则将其视为正方形边三角形,如果边没有圆,这里的数据就不会被标记,它将学会自我检测各种形状

答案 22 :(得分:0)

简单来说.. :)这是我的理解,随时可以纠正。 监督学习是,我们知道根据所提供的数据预测的结果。因此,我们在数据集中有一列需要确定。 无监督学习是,我们尝试从提供的数据集中提取含义。我们对要预测的内容不清楚。那么问题是为什么我们要这样做?.. :)答案是-无监督学习的结果是小组/群体(相似数据在一起)。因此,如果我们收到任何新数据,则将其与已识别的群集/组关联,并了解其功能。

希望它能对您有所帮助。

答案 23 :(得分:0)

  

监督学习

enter image description here

  

无监督学习

enter image description here

  

示例:

监督学习:

  • 一个苹果袋
  • 一个橙色袋子

    =>构建模型

  • 一个苹果和橙子的混合袋。

    =>请分类

无监督学习:

  • 一个苹果和橙子的混合袋。

    =>构建模型

  • 另一个杂物包

    =>请分类

答案 24 :(得分:0)

监督学习

监督学习算法分析训练数据并产生一个推断函数,可用于映射新示例。

  1. 我们提供培训数据,并且知道特定输入的正确输出
  2. 我们知道输入和输出之间的关系

问题类别:

回归: 预测连续输出中的结果=>将输入变量映射到某个连续函数。

示例:

给出一个人的照片,预测他的年龄

分类: 预测结果为离散输出=>将输入变量映射为离散类别

示例:

这个肿瘤癌了吗?

Supervised learning

无监督学习:

无监督学习从尚未标记,分类或分类的测试数据中学习。无监督学习可以识别数据中的共性,并根据每个新数据中是否存在这种共性进行反应。

  1. 我们可以通过基于数据中变量之间的关系对数据进行聚类来得出此结构。

  2. 没有基于预测结果的反馈。

问题类别:

集群: 是将一组对象进行分组的任务,以使同一组(称为集群)中的对象更加相似(在某种意义上) ),而不是其他组(集群)中的人

示例:

收集1,000,000个不同的基因,并找到一种方法,将这些基因自动分组为通过不同变量(例如寿命,位置,角色等)在某种程度上相似或相关的组

Unsupervised learning

此处列出了常用的用例。

Difference between classification and clustering in data mining?

参考文献:

Supervised_learning

Unsupervised_learning

machine-learning from coursera

towardsdatascience

答案 25 :(得分:0)

简单      监督学习是一种机器学习问题,其中我们具有一些标签,并且通过使用这些标签,我们可以实现诸如回归和分类之类的算法。将分类应用于其中输出类似于 0或1,是/否,是/否。并应用回归法来计算实际价格,例如价格的房子

无监督学习是一种机器学习问题,其中我们没有任何标签,这意味着我们只有一些数据,非结构化数据,并且必须使用以下方法对数据进行聚类(数据分组)各种无监督算法

答案 26 :(得分:0)

监督学习基本上是一种技术,其中机器学习的训练数据已被标记为假设一个简单的偶数奇数分类器,您已经在训练期间对数据进行了分类。因此它使用“LABELED”数据。

相反,无监督学习是一种机器本身标记数据的技术。或者你可以说机器从零开始学习它的情况。

答案 27 :(得分:0)

  

监督机器学习

     

&#34;从训练数据集学习算法的过程   预测输出。 &#34;

预测输出的准确度与训练数据(长度)成正比

监督学习是输入变量(x)(训练数据集)和输出变量(Y)(测试数据集)的地方,您可以使用算法来学习从输入到输出的映射函数。

Y = f(X)

主要类型:

  • 分类(离散y轴)
  • 预测(连续y轴)

算法:

  • 分类算法:

    Neural Networks  
    Naïve Bayes classifiers  
    Fisher linear discriminant  
    KNN 
    Decision Tree 
    Super Vector Machines
    
  • 预测算法:

    Nearest  neighbor  
    Linear Regression,Multi Regression 
    

申请区域:

  1. 将电子邮件分类为垃圾邮件
  2. 分类患者是否有 疾病与否
  3. 语音识别

  4. 预测HR选择特定候选人

  5. 预测股票市场价格

答案 28 :(得分:0)

监督学习基本上是输入变量(x)和输出变量(y)的地方,并使用算法来学习从输入到输出的映射函数。我们称之为监督的原因是因为算法从训练数据集中学习,该算法迭代地对训练数据进行预测。 监督有两种类型 - 分类和回归。 分类是指输出变量是类似yes / no,true / false的类别。 回归是指输出是真实值,如人的身高,温度等。

联合国监督学习是我们只有输入数据(X)而没有输出变量的地方。 这被称为无监督学习,因为与上面的监督学习不同,没有正确的答案,也没有教师。算法由他们自己设计,以发现并呈现数据中的有趣结构。

无监督学习的类型是聚类和关联。

答案 29 :(得分:0)

监督学习可以根据培训期间的学习将新项目标记为一个经过培训的标签。您需要提供大量的训练数据集,验证数据集和测试数据集。如果您提供数字的像素图像矢量以及带有标签的训练数据,那么它可以识别数字。

无监督学习不需要培训数据集。在无监督学习中,它可以基于输入向量的差异将项目分组到不同的群集中。如果您提供数字的像素图像矢量并要求它分类为10个类别,它可能会这样做。但它确实知道如何标记它,因为你没有提供培训标签。

相关问题