何时使用有人监督或无监督学习?

时间:2017-07-04 13:49:15

标签: machine-learning criteria supervised-learning unsupervised-learning

  • 使用有监督或无监督学习的基本标准是什么?
  • 什么时候比另一个更好?
  • 是否有特定情况只能使用其中一种?

谢谢

2 个答案:

答案 0 :(得分:4)

  1. 如果您已标记数据集,则可以同时使用这两者。如果您没有标签,则只能使用无监督学习。

  2. 这不是“更好”的问题。这是你想要实现的目标的问题。例如。群集数据通常是无人监管的 - 您希望算法告诉您数据的结构。分类是受监督的,因为您需要教您的算法是什么,以便对看不见的数据进行预测。

  3. 见1.

  4. 旁注:这些是非常广泛的问题。我建议你熟悉一些ML基础。

    好的播客,例如:Regular Expressions

    Jake VanderPlas非常好的书/笔记本:http://ocdevel.com/podcasts/machine-learning

答案 1 :(得分:1)

取决于您的需求。如果您有一组现有数据,包括您希望预测的目标值(标签),那么您可能需要supervised learning(例如,是真还是假;或者这些数据是代表鱼,猫还是狗?简单地说 - 你已经有正确答案的例子,你只是告诉算法要预测什么)。您还需要区分是否需要分类回归。分类是指您需要将预测值分类到给定的类别(例如,这个人是否可能患上糖尿病 - 是或否?换句话说 - 离散值)和回归就是您需要预测连续值时(1,2) ,4.56,12.99,23等)。有许多监督学习算法可供选择(k-最近邻,朴素贝叶斯,SVN,脊......)

相反 - 如果您没有标签(或目标值),请使用unsupervised learning。您只是在尝试识别数据集时。例如。 k-Means,DBScan,谱聚类..)

所以这取决于并且没有确切的答案,但一般来说你需要:

  1. 收集并查看您的数据。您需要了解您的数据,然后才能确定您选择的方式或最适合您需求的算法。

  2. 训练你的算法。请务必获得干净且良好的数据,并牢记在无监督学习的情况下,您可以跳过此步骤,因为您没有目标值。您可以立即测试算法

  3. 测试您的算法。运行并查看算法的行为。在监督学习的情况下,您可以使用一些训练数据来评估算法的效果。

  4. 网上有很多关于机器学习的书籍,还有很多关于这个主题的在线讲座。