Word2Vec和Gensim参数等价

时间:2015-04-29 09:44:23

标签: python nlp neural-network gensim word2vec

Gensim是Word2Vec的优化python端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/

我目前正在使用这些向量:http://clic.cimec.unitn.it/composes/semantic-vectors.html

我将用gensim重新运行模型训练,因为他们的模型中有一些嘈杂的标记。所以我想知道word2vec

gensim的等效参数是什么

他们从word2vec使用的参数是:

  • 双字上下文窗口,PMI加权,无压缩,300K维度

训练Word2Vec模型时,gensim等效性是什么?

是吗:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

gensim中是否有PMI权重选项?

word2vec中使用的默认min_count是什么?

还有来自word2vec的另一组参数:

  • 5字上下文窗口,10个负样本,子采样,400维。

gensim中是否有负样本参数?

gensim中子采样的参数等价是什么?

1 个答案:

答案 0 :(得分:3)

  1. 您链接的文章会比较多种方案中的字嵌入,包括连续字组(CBOW)。 CBOW是Gensim的“word2vec”模型中实现的模型之一。本文还讨论了使用各种加权方案从奇异值分解中获得的词嵌入,其中一些涉及PMI。 SVD和word2vec之间没有等价,但是如果你想在gensim中做一个SVD,那么当在自然语言处理中完成时,它被称为“LSA”或“潜在语义分析”。

  2. min_count参数默认设置为5,可以看作是here

  3. 负抽样和分层Softmax是两种近似推理方法,用于估计离散空间上的概率分布(当正常softmax计算量太大时使用)。 Gensim的word2vec实现了两者。它默认使用分层softmax,但您可以通过将超参数negative设置为大于零来使用负采样。这在gensim的代码here中的注释中也有记录。