vector - 如何为特殊目的正确训练Word2Vec模型

我的问题涉及对模型的正确培训，以便对Word2Vec模型进行独特且真正具体的使用。 See Word2Vec details here

我正致力于识别单词嵌入中的名词 - 形容词（或）关系。

（例如，我们在数据集的句子中有'好车'。鉴于语料库的单词嵌入以及所有标记的名词和形容词，我试图设计一种技术来找到连接的正确向量'很好'与'汽车'。）

当然，我并不是只想连接那对词，但这种技巧应该适用于所有关系。此时采取监督方法，然后尝试设计无监督方法。

既然你明白我要做什么，我会解释这个问题。我显然知道word2vec需要接受大量数据的训练，以尽可能准确地学习正确的嵌入，但是我害怕给它提供比带有标记句子的数据集更多的数据（500-700）。

我担心如果我给它更多的数据进行训练（例如最新的维基百科转储数据集），它会学习更好的向量，但额外的数据会影响我的单词的定位，那么这个单词关系是有偏见的通过额外的培训数据。（例如，如果额外的训练数据中还有'漂亮的苹果'，那么'好'这个词的定位可能会受到影响。）

希望这是有道理的，我并没有做出错误的假设，但由于没有足够的训练数据，或者具有良好的向量，但是在嵌入字中的矢量定位受到损害，我只是处于导致坏矢量的两难境地。

什么是正确的训练方式？尽可能多的训练数据（数十亿字）或仅标记数据集（500-700句）？

非常感谢您的时间，如果我解释的任何内容没有意义，请告诉我。