Question

我正在从事一项涉及英语和印度尼西亚参与者的跨文化语言研究。

在英语参与者中，我成功地从Google新闻语料库（文件：GoogleNews-vectors-negative300.bin）中加载了经过预训练的word2vec。

我想知道，因为我无法加载印度尼西亚语的Google新闻语料库。（文件：id.bin，文件源：https://github.com/Kyubyong/wordvectors）。

这是工作代码：

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

这是无效代码：

import gensim
from gensim import models
from gensim.models import Word2Vec
import math
import sys
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

model = gensim.models.word2vec.Word2Vec.load_word2vec_format('id.bin', binary=True)

正确的方法是什么？

Answer 1

您应该使用load()而不是load_word2vec_format()。 load_word2vec_format适用于google生成的模型，不适用于gensim生成的模型。

import gensim

model = gensim.models.word2vec.Word2Vec.load('id.bin')

为什么我用来从Google新闻语料库（英语）加载经过预训练的word2vec的代码无法工作，从而无法加载Google新闻语料库（印度尼西亚语）？

1 个答案: