如何加载有词汇限制的word2vec txt文件

时间:2019-04-18 17:25:33

标签: gensim

我有一个标准格式的word2vec文件,但是对于2M个项目来说它很大。我还有一个词汇文件,其中每一行都是一个单词,该文件大约有80万行。现在,我想从word2vec文件中加载嵌入内容,并且只希望在词汇表文件中嵌入单词。 gensim中有有效的实现吗?

1 个答案:

答案 0 :(得分:0)

没有内置支持来过滤负载单词。但是您可以将load_word2vec_format()函数的代码用作您自己的替代加载代码的模型,该替代加载代码会跳过不感兴趣的单词。

您可以在KeyedVectors类中查看该函数的代码...

https://github.com/RaRe-Technologies/gensim/blob/ff107d6c5cb50d9ab99999cb898ff0aceb192592/gensim/models/keyedvectors.py#L1434

...以及一些共享的支持功能...

https://github.com/RaRe-Technologies/gensim/blob/ff107d6c5cb50d9ab99999cb898ff0aceb192592/gensim/models/utils_any2vec.py#L294