gensim KeyedVectors对象字数

时间:2017-10-16 03:06:11

标签: gensim

我加载了KeyedVectors模型,单词频率似乎是单词索引

我想念一些事情?

enter image description here

1 个答案:

答案 0 :(得分:3)

load_word2vec_format()加载的单一文件格式不包含字数 - 因此它们不会出现在已加载的对象中。

通常的惯例是将这些文件放在最频繁到最不频繁的顺序中。因此,在没有真实计数信息的情况下,使用从词汇量大小减少到1的插值。(这个数字有点像你正在看到的单词索引。)

某些软件可以将额外信息保存在单独的文件中 - 请参阅gensim fvocabsave_word2vec_format()的{​​{1}}选项。所以也许你的矢量已经可用了,你可以使用那个选项。