应用错误收集

时间：2019-08-26 17:30:55

标签： python machine-learning nlp word2vec

我有大量的自由文本医学叙述，现在将用于分类任务，目前大约有4200条记录。

首先，我希望使用w2v创建单词嵌入，但是对于此任务的火车测试拆分，我有一个疑问。

当我训练w2v模型时，是否适合将所有数据用于模型创建？还是应该仅使用火车数据来创建模型？

真的，我的问题归结为：我是否要提取整个数据集，创建w2v模型，使用该模型转换叙述，然后拆分，或者应该拆分，创建w2v，然后转换两组独立吗？

谢谢！

编辑

我在工作地点发现了一个内部项目，该项目是由供应商建立的；他们创建分割，仅在火车数据上创建w2v模型，然后分别在不同的工作中转换两个集合。所以这是我上面指定的两个选项中的后者。我想就是这样，因为我不想在任何测试数据上污染w2v模型。

答案 0 :(得分：1)

在NLP中，对大多数此类问题的答案是“都尝试” :-)

测试数据和火车数据的污染无关紧要，或者在生成单词向量时存在问题。这是与向量一起使用的模型中的一个相关问题。我发现用例中的整体语料库向量的性能更好。

单词向量的质量随着更多数据的提高而提高。如果您不使用测试语料库，则将需要一种方法来初始化词汇外向量，并了解它们可能对模型性能的影响。