如何为特殊目的正确训练Word2Vec模型

时间:2017-05-24 06:06:14

标签: vector deep-learning gensim word2vec word-embedding

我的问题涉及对模型的正确培训,以便对Word2Vec模型进行独特且真正具体的使用。 See Word2Vec details here

我正致力于识别单词嵌入中的名词 - 形容词(或)关系。

(例如,我们在数据集的句子中有'好车'。鉴于语料库的单词嵌入以及所有标记的名词和形容词,我试图设计一种技术来找到连接的正确向量'很好'与'汽车'。)

当然,我并不是只想连接那对词,但这种技巧应该适用于所有关系。此时采取监督方法,然后尝试设计无监督方法。

既然你明白我要做什么,我会解释这个问题。我显然知道word2vec需要接受大量数据的训练,以尽可能准确地学习正确的嵌入,但是我害怕给它提供比带有标记句子的数据集更多的数据(500-700)。

我担心如果我给它更多的数据进行训练(例如最新的维基百科转储数据集),它会学习更好的向量,但额外的数据会影响我的单词的定位,那么这个单词关系是有偏见的通过额外的培训数据。 (例如,如果额外的训练数据中还有'漂亮的苹果',那么'好'这个词的定位可能会受到影响。)

希望这是有道理的,我并没有做出错误的假设,但由于没有足够的训练数据,或者具有良好的向量,但是在嵌入字中的矢量定位受到损害,我只是处于导致坏矢量的两难境地。

什么是正确的训练方式?尽可能多的训练数据(数十亿字)或仅标记数据集(500-700句)?

非常感谢您的时间,如果我解释的任何内容没有意义,请告诉我。

1 个答案:

答案 0 :(得分:1)

在类似的情况下,最好检查......

我想知道您是否测试了标记数据集结果与维基百科数据集的培训差异。是否真的存在害怕看到的问题?

我只是进行一项实验,检查两种情况下的向量是否确实不同(从统计学角度来说)。

怀疑你可能会用更大的语料库引入一些噪音,但更多的数据可能是有益的。词汇覆盖面(更大的语料库 - 更普遍)。这一切都取决于您的预期用例。这可能是高精度与非常低的召回率之间的权衡,相对较好的召回率也是如此精确。