在整个语料库上训练W2V模型是否合适?

时间:2019-08-26 17:30:55

标签: python machine-learning nlp word2vec

我有大量的自由文本医学叙述,现在将用于分类任务,目前大约有4200条记录。

首先,我希望使用w2v创建单词嵌入,但是对于此任务的火车测试拆分,我有一个疑问。

当我训练w2v模型时,是否适合将所有数据用于模型创建?还是应该仅使用火车数据来创建模型?

真的,我的问题归结为:我是否要提取整个数据集,创建w2v模型,使用该模型转换叙述,然后拆分,或者应该拆分,创建w2v,然后转换两组独立吗?

谢谢!

编辑

我在工作地点发现了一个内部项目,该项目是由供应商建立的;他们创建分割,仅在火车数据上创建w2v模型,然后分别在不同的工作中转换两个集合。所以这是我上面指定的两个选项中的后者。我想就是这样,因为我不想在任何测试数据上污染w2v模型。

1 个答案:

答案 0 :(得分:1)

在NLP中,对大多数此类问题的答案是“都尝试” :-)

测试数据和火车数据的污染无关紧要,或者在生成单词向量时存在问题。这是与向量一起使用的模型中的一个相关问题。我发现用例中的整体语料库向量的性能更好。

单词向量的质量随着更多数据的提高而提高。如果您不使用测试语料库,则将需要一种方法来初始化词汇外向量,并了解它们可能对模型性能的影响。