我们可以使用doc2vec和CNN的所有数据集吗?

时间:2019-05-07 19:27:06

标签: tensorflow deep-learning doc2vec multiclass-classification

我有一个数据集,任务是一个多类分类。段落向量代表文档,并且对CNN进行建模。为此,我将数据集分为训练(75%)和测试(25%)。对于Doc2Vec,使用训练集。然后,剩余的数据(测试)也会也分为两部分用于CNN。但是,我的问题是,我们可以在Doc2Vec之后使用CNN的所有数据吗?

1 个答案:

答案 0 :(得分:0)

您“可以”在所需的任何地方使用所有数据。

但是对于分类步骤,如果您正在评估算法和元参数,则如果对某些未保留的数据进行计算,则对分类器在未来(尚未看到)数据上的性能进行的任何估算都将更好。根本影响分类器的训练/调整。

由于Doc2Vec是一种无监督的算法,并且训练它的经典方法(每个文档具有唯一的ID)根本不会向算法揭示分类标签,因此使用所有训练该模型步骤的文本。

对于下游分类步骤(例如您提到的“ CNN”),您将保留一些数据以进行准确评估。也许如果这是一个学术项目,那将是您的运动/实验的终点。

但是,如果实际部署系统,则很有可能会使用所有数据来重新训练生产部署模型-放弃准确的评估,以换取未知但可能的实际性能相对于实际尚未看到的改进输入。