在机器学习中标记数据集

时间:2016-02-14 09:43:33

标签: machine-learning supervised-learning data-management

我对机器学习的一些基本概念有疑问。我观察到的例子给出了一个简要的概述。为了训练系统,给出了特征向量作为输入。在监督学习的情况下,标记数据集。我对标签感到困惑。例如,如果我必须区分两种类型的图片,我将提供一个特征向量,在输出端进行测试,我将为类型A提供1,为类型B提供2.但是如果我想提取一个区域感兴趣的是图像数据集。如何使用SVM标记我的数据以提取ROI。我希望我能够表达我的困惑。感谢您的期待。

1 个答案:

答案 0 :(得分:0)

在有监督的学习中,例如SVM,数据集的组成应如下:

<i-th feature vector><i-th label>

其中i从1变为训练集中的模式数量(也是示例观察),因此这代表了训练中的单个记录set可用于训练SVM分类器。

所以你基本上有一个由这样的元组组成的集合,如果你只有2个标签(二进制分类问题),你可以很容易地使用SVM。实际上,SVM模型将通过训练集和训练标签进行训练,一旦训练阶段结束,您可以使用另一组(称为验证集或测试集),其结构与训练集相同,测试SVM的准确性。
换句话说,SVM工作流程的结构应如下所示:

  1. 使用培训集和培训标签培训SVM
  2. 使用上一步中训练的模型预测验证集的标签
  3. 如果您知道实际验证标签是什么,则可以将预测标签与实际标签相匹配,并检查已正确预测的标签数量。正确预测的标签数量与验证集中标签总数之间的比率将返回[0; 1]之间的标量,并将其称为SVM模型的精度。< / LI>
  4. 如果您对ROI感兴趣,您可能需要检查训练好的SVM参数(主要是权重和偏差)以重建分离超平面
  5. 同样重要的是要知道训练集记录应该正确,先验标记:如果训练标签不正确,SVM将永远无法正确预测以前的输出看不见的模式。您不必根据要提取的ROI标记数据,必须事先正确标记数据:SVM将具有整个A类图片集和B类图片集,并将学习决策边界分离A型图片和B型图片。您不必欺骗标签:如果这样做,您就不会进行分类和/或机器学习和/或模式识别。你基本上是在欺骗结果。