应用错误收集

我正在处理此共享任务http://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools

这只是一个推特情绪分析。由于我对机器学习很陌生，我不太确定如何使用训练数据和测试数据。

因此，共享任务提供了两组相同的Twitter推文，其中一组没有结果（列车），另一组包含结果。

目前我在机器学习中使用这些数据的理解如下：

训练集：我们应该把它分成训练和测试部分（可能是90％的训练和10％的测试？）

但是现有的单独测试数据有点混乱。

我们是否应该使用我们在测试中使用“训练集”的10％部分得到的结果，并将其与实际结果“测试集”进行比较？

有人可以纠正我的理解吗？

在训练机器学习模型时，您正在使用名为training set的数据集来提供算法，在此阶段，您将告诉算法您在算法中放入的每个样本的基本事实是什么，通过这种方式，算法可以从每个样本中学习。 training set通常是整个数据集的80％，另外20％的数据集是testing set，在这种情况下，你知道每个样本的基本事实是什么，但是你让你的算法预测它让你预测的每个样本的真实性。 testing set以上的所有预测都是基于算法从您之前提供的training set中学到的内容。在对testing set进行所有预测之后，您可以根据与模型预测相比较的基本事实来检查模型的准确程度。

在共享任务中使用培训数据和测试数据

1 个答案: