为什么我用来从Google新闻语料库(英语)加载经过预训练的word2vec的代码无法工作,从而无法加载Google新闻语料库(印度尼西亚语)?

时间:2018-11-06 13:12:19

标签: python anaconda pre-trained-model

我正在从事一项涉及英语和印度尼西亚参与者的跨文化语言研究。

在英语参与者中,我成功地从Google新闻语料库(文件:GoogleNews-vectors-negative300.bin)中加载了经过预训练的word2vec。

我想知道,因为我无法加载印度尼西亚语的Google新闻语料库。 (文件:id.bin,文件源:https://github.com/Kyubyong/wordvectors)。

这是工作代码:

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

这是无效代码:

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('id.bin', binary=True)

正确的方法是什么?

1 个答案:

答案 0 :(得分:0)

您应该使用load()而不是load_word2vec_format()load_word2vec_format适用于google生成的模型,不适用于gensim生成的模型。

import gensim

model = gensim.models.word2vec.Word2Vec.load('id.bin')