应用错误收集

我在我的语料库上训练word2vec模型，我的一个朋友问我在整个语料库中训练word2vec模型是否正确？因为在创建单词嵌入时我使用整个语料库，所以基本上我是以这些向量的形式将测试信息泄漏到我的网络中，这在训练神经网络时并不理想。

相反，如果他们在创建这些嵌入时使用相同的文档，我将使用谷歌或任何其他来源的预训练单词嵌入，我将用它来测试我的网络，无论如何我都会泄露这些信息。

所以我的问题是训练word2vec的正确方法是什么？