在共享任务中使用培训数据和测试数据

时间:2017-12-05 19:38:58

标签: machine-learning

我正在处理此共享任务http://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools

这只是一个推特情绪分析。由于我对机器学习很陌生,我不太确定如何使用训练数据和测试数据。

因此,共享任务提供了两组相同的Twitter推文,其中一组没有结果(列车),另一组包含结果。

目前我在机器学习中使用这些数据的理解如下:

  • 训练集:我们应该把它分成训练和测试部分(可能是90%的训练和10%的测试?)
但是现有的单独测试数据有点混乱。

我们是否应该使用我们在测试中使用“训练集”的10%部分得到的结果,并将其与实际结果“测试集”进行比较?

有人可以纠正我的理解吗?

1 个答案:

答案 0 :(得分:3)

在训练机器学习模型时,您正在使用名为training set的数据集来提供算法,在此阶段,您将告诉算法您在算法中放入的每个样本的基本事实是什么,通过这种方式,算法可以从每个样本中学习。 training set通常是整个数据集的80%,另外20%的数据集是testing set,在这种情况下,你知道每个样本的基本事实是什么,但是你让你的算法预测它让你预测的每个样本的真实性。 testing set以上的所有预测都是基于算法从您之前提供的training set中学到的内容。 在对testing set进行所有预测之后,您可以根据与模型预测相比较的基本事实来检查模型的准确程度。