我正在使用model.wv从word2vec模型中提取单词嵌入向量。此向量中每个元素的值范围是什么?
import gensim
word2vec_model = gensim.models.Word2Vec.load("testModel")
word2vec_model.wv["increase"] #What is range of values for each vector element?
在文档中似乎找不到此信息。
答案 0 :(得分:1)
向量的每个维都是32位浮点值。
除此之外,没有其他必要的或强制性的限制,尽管训练过程中各个维度往往不会“很大”,通常保持在-1.0到1.0之间。
在将字向量与其他类似的标准化字向量进行比较之前,将字向量规格化为1.0是很常见的(但并非对所有应用程序都是必需的或有益)。
您可以使用word_vec()
方法的use_norm
参数请求字向量的单位归一化版本:
model.wv.word_vec(word, use_norm=True)
在这样一个单位归一的向量中,没有任何一个维将在-1.0到1.0的范围之外。