如何在GoogleNews-vectors-negative300.bin预训练模型中添加缺失的单词向量?

时间:2015-11-28 22:05:33

标签: python-2.7 gensim word2vec

我在python中使用gensim word2vec库并使用预先训练的GoogleNews-vectors-negative300.bin模型。但是,

  

我的语料库中有单词,我没有单词向量   得到keyError,我该如何解决这个问题?

这是我到目前为止所尝试的,

1:每个训练模型加载border

GoogleNews-vectors-negative300.bin

2:使用推文中所有单词向量的平均值构建训练集的单词向量,然后进行缩放

model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
print "model loaded..."

请告诉我们如何在预训练的Word2vec模型中添加新单词?

1 个答案:

答案 0 :(得分:1)

  1. 获取预先训练的矢量 - 例如。 Google News

  2. 在gensim中加载模型

  3. 继续在gensim中训练模型

  4. 这些命令可能派上用场

    # Loading pre-trained vectors
    model = Word2Vec.load_word2vec_format('/tmp/vectors.bin', binary=True)
    
    # Training the model with list of sentences (with 4 CPU cores)
    model.train(sentences, workers=4)