在整个语料库上训练单词向量?

时间:2018-05-16 15:50:36

标签: nlp deep-learning word2vec word-embedding

我在我的语料库上训练word2vec模型,我的一个朋友问我在整个语料库中训练word2vec模型是否正确?因为在创建单词嵌入时我使用整个语料库,所以基本上我是以这些向量的形式将测试信息泄漏到我的网络中,这在训练神经网络时并不理想。

相反,如果他们在创建这些嵌入时使用相同的文档,我将使用谷歌或任何其他来源的预训练单词嵌入,我将用它来测试我的网络,无论如何我都会泄露这些信息。

所以我的问题是训练word2vec的正确方法是什么?

  • 在创建单词向量之前分离测试和训练数据?

  • 在整个语料库中创建单词向量?

0 个答案:

没有答案