研究论文有监督学习和无监督学习的定义

时间:2019-11-27 06:40:39

标签: machine-learning deep-learning unsupervised-learning supervised-learning

我正在寻找一些关于监督学习和无监督学习的基本定义的研究论文或书籍。这样我就可以在我的项目中引用这些定义。

非常感谢您。

3 个答案:

答案 0 :(得分:4)

我将参考以下书籍:人工智能:现代方法(第三版),由Stuart Russell和Peter Norvig撰写的第三版。在第18章和第693页以及更详细的内容中,对有监督和无监督学习进行了分析。关于无监督学习:

  

在无监督学习中,代理学习输入中的模式       即使没有提供明确的反馈。       最常见的无监督学习任务是聚类:       检测可能有用的输入示例群。       例如,出租车代理商可能会逐渐发展一个概念       从未有过的“好交通日”和“坏交通日”       由老师给每个标签的例子

在受监督的情况下:

  

在监督学习中,代理观察到一些示例输入输出   对       并学习一个从输入映射到输出的函数。在上面的组件1中,       输入是感知,输出是由老师提供的       谁说“刹车!”或​​“向左转”。在组件2中,输入是摄像机       图片和输出再次来自一位老师,他说“那是一辆公共汽车。”       3,制动理论是状态和制动作用的函数       停止以英尺为单位的距离。在这种情况下,输出值可用       直接根据代理商的看法(事实之后);环境       是老师。

The examples are mentioned in the text above.

答案 1 :(得分:1)

Christopher M. Bishop,“模式识别和机器学习”,第3页(强调我的意思)

  

其中训练数据包含输入向量的示例以及它们对应的目标向量的应用程序称为监督学习问题...

     

在其他模式识别问题中,训练数据由一组输入向量x组成,没有任何相应的目标值。此类无监督学习问题的目标可能是发现数据中的相似示例组,   称为“聚类”,或者确定输入空间内数据的分布,称为“密度估计”,或者将高维空间中的数据投影到为实现可视化而需要的两个或三个维度。

您所能做到的最好。基本上,最明显的区别是我们是否具有wrt标签。我们要优化学习模型。如果我们没有一些标签,它仍然可以被描述为弱监督学习。如果没有可用的标签,剩下的就是在数据中找到一些结构。

答案 2 :(得分:1)

感谢@Pavel Tyshevskyi的配合。您的回答是完美的,但似乎有点像,但对于像我这样的初学者来说很难理解。

经过一个小时的搜索,我在第1章“了解机器学习”的“机器学习方法”部分的“机器学习傻瓜,IBM限量版”一书中找到了自己的答案。它的定义更简单,并有示例可以帮助我更好地理解。链接到该书:Machine Learning For Dummies, IBM Limited Edition

  

监督学习

     

监督学习通常从一组已建立的数据和对该数据如何分类的一定理解开始。监督学习旨在在数据中找到可应用于分析过程的模式。该数据具有定义数据含义的标记特征。例如,可能有数以百万计的动物图像,并包含每种动物的解释,然后您可以创建将一种动物与另一种动物区分开的机器学习应用程序。通过标记有关动物类型的数据,您可能拥有数百种不同物种的猫科动物。因为已经识别出数据的属性和含义,所以正在培训建模数据的用户可以很好地理解它,以使其适合标签的详细信息。当标签是连续的时,它是回归。当数据来自一组有限的值时,称为分类。本质上,用于监督学习的回归可以帮助您了解变量之间的相关性。监督学习的一个例子是天气预报。通过回归分析,天气预报可以考虑已知的历史天气模式和当前状况,从而对天气做出预测。

     

使用预处理后的示例对算法进行训练,此时,将使用测试数据评估算法的性能。有时,在较大数据集中无法检测到在数据子集中识别出的模式。如果模型适合仅表示训练子集中存在的模式,则将产生一个称为过度拟合的问题。过度拟合意味着您的模型已针对训练数据进行了精确调整,但可能不适用于大量未知数据。为了防止过度拟合,需要针对无法预料或未知的标记数据进行测试。将不可预见的数据用于测试集可以帮助您评估模型在预测结果和结果中的准确性。有监督的培训模型对各种业务问题具有广泛的适用性,包括欺诈检测,推荐解决方案,语音识别或风险分析。

     

无监督学习

     

当问题需要大量未标记的数据时,无监督学习最适合。例如,社交媒体应用程序,例如Twitter,Instagram,Snapchat和.....