应用错误收集

时间：2019-05-07 19:27:06

标签： tensorflow deep-learning doc2vec multiclass-classification

我有一个数据集，任务是一个多类分类。段落向量代表文档，并且对CNN进行建模。为此，我将数据集分为训练（75％）和测试（25％）。对于Doc2Vec，使用训练集。然后，剩余的数据（测试）也会也分为两部分用于CNN。但是，我的问题是，我们可以在Doc2Vec之后使用CNN的所有数据吗？

答案 0 :(得分：0)

您“可以”在所需的任何地方使用所有数据。

但是对于分类步骤，如果您正在评估算法和元参数，则如果对某些未保留的数据进行计算，则对分类器在未来（尚未看到）数据上的性能进行的任何估算都将更好。根本影响分类器的训练/调整。

由于Doc2Vec是一种无监督的算法，并且训练它的经典方法（每个文档具有唯一的ID）根本不会向算法揭示分类标签，因此使用所有训练该模型步骤的文本。

对于下游分类步骤（例如您提到的“ CNN”），您将保留一些数据以进行准确评估。也许如果这是一个学术项目，那将是您的运动/实验的终点。

但是，如果实际部署系统，则很有可能会使用所有数据来重新训练生产部署模型-放弃准确的评估，以换取未知但可能的实际性能相对于实际尚未看到的改进输入。