我正在处理此共享任务http://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools
这只是一个推特情绪分析。由于我对机器学习很陌生,我不太确定如何使用训练数据和测试数据。
因此,共享任务提供了两组相同的Twitter推文,其中一组没有结果(列车),另一组包含结果。
目前我在机器学习中使用这些数据的理解如下:
我们是否应该使用我们在测试中使用“训练集”的10%部分得到的结果,并将其与实际结果“测试集”进行比较?
有人可以纠正我的理解吗?
答案 0 :(得分:3)
在训练机器学习模型时,您正在使用名为training set
的数据集来提供算法,在此阶段,您将告诉算法您在算法中放入的每个样本的基本事实是什么,通过这种方式,算法可以从每个样本中学习。 training set
通常是整个数据集的80%,另外20%的数据集是testing set
,在这种情况下,你知道每个样本的基本事实是什么,但是你让你的算法预测它让你预测的每个样本的真实性。 testing set
以上的所有预测都是基于算法从您之前提供的training set
中学到的内容。
在对testing set
进行所有预测之后,您可以根据与模型预测相比较的基本事实来检查模型的准确程度。