gensim模型中向量值的范围

时间:2019-09-26 19:01:59

标签: gensim word2vec

我正在使用model.wv从word2vec模型中提取单词嵌入向量。此向量中每个元素的值范围是什么?

import gensim

word2vec_model = gensim.models.Word2Vec.load("testModel")
word2vec_model.wv["increase"] #What is range of values for each vector element?

在文档中似乎找不到此信息。

1 个答案:

答案 0 :(得分:1)

向量的每个维都是32位浮点值。

除此之外,没有其他必要的或强制性的限制,尽管训练过程中各个维度往往不会“很大”,通常保持在-1.0到1.0之间。

在将字向量与其他类似的标准化字向量进行比较之前,将字向量规格化为1.0是很常见的(但并非对所有应用程序都是必需的或有益)。

您可以使用word_vec()方法的use_norm参数请求字向量的单位归一化版本:

model.wv.word_vec(word, use_norm=True)

在这样一个单位归一的向量中,没有任何一个维将在-1.0到1.0的范围之外。