我在我的语料库上训练word2vec模型,我的一个朋友问我在整个语料库中训练word2vec模型是否正确?因为在创建单词嵌入时我使用整个语料库,所以基本上我是以这些向量的形式将测试信息泄漏到我的网络中,这在训练神经网络时并不理想。
相反,如果他们在创建这些嵌入时使用相同的文档,我将使用谷歌或任何其他来源的预训练单词嵌入,我将用它来测试我的网络,无论如何我都会泄露这些信息。
所以我的问题是训练word2vec的正确方法是什么?
在创建单词向量之前分离测试和训练数据?
在整个语料库中创建单词向量?