我有一个标准格式的word2vec文件,但是对于2M个项目来说它很大。我还有一个词汇文件,其中每一行都是一个单词,该文件大约有80万行。现在,我想从word2vec文件中加载嵌入内容,并且只希望在词汇表文件中嵌入单词。 gensim中有有效的实现吗?
答案 0 :(得分:0)
没有内置支持来过滤负载单词。但是您可以将load_word2vec_format()
函数的代码用作您自己的替代加载代码的模型,该替代加载代码会跳过不感兴趣的单词。
您可以在KeyedVectors
类中查看该函数的代码...
...以及一些共享的支持功能...