我正在从事一项涉及英语和印度尼西亚参与者的跨文化语言研究。
在英语参与者中,我成功地从Google新闻语料库(文件:GoogleNews-vectors-negative300.bin)中加载了经过预训练的word2vec。
我想知道,因为我无法加载印度尼西亚语的Google新闻语料库。 (文件:id.bin,文件源:https://github.com/Kyubyong/wordvectors)。
这是工作代码:
import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
model = gensim.models.word2vec.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
这是无效代码:
import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')
model = gensim.models.word2vec.Word2Vec.load_word2vec_format('id.bin', binary=True)
正确的方法是什么?
答案 0 :(得分:0)
您应该使用load()
而不是load_word2vec_format()
。 load_word2vec_format
适用于google生成的模型,不适用于gensim生成的模型。
import gensim
model = gensim.models.word2vec.Word2Vec.load('id.bin')