将word2vec偏向特殊语料库

时间:2015-06-05 10:03:00

标签: nlp gensim word2vec

我是stackoverflow的新手。请原谅我糟糕的英语。

我正在将 word2vec 用于学校项目。我想使用域特定语料库(如物理教科书)使用 Word2Vec 创建单词向量。由于语料库的较小,这种独立的方法不能提供良好的结果。当我们想要评估可能远远超出教科书词汇量的单词时,这尤其会受到伤害。

我们希望教科书对域特定关系和语义“接近度”进行编码。 “量子”和“海森堡”在本教科书中特别贴近,例如。这可能不适用于背景语料库。要处理通用词(如“any”),我们需要基本的背景模型(就像Google在word2vec网站上提供的那样)。

我们是否有任何方法可以使用我们较新的语料库来取代背景模型。只是对语料库等进行培训并不奏效。

是否有任何尝试组合来自两个语料库的一般和特定的矢量表示。我在搜索中找不到任何内容。

1 个答案:

答案 0 :(得分:0)

让我们谈谈gensim,因为你用它标记了你的问题。您可以使用gensim在python中加载以前训练过的模型。然后你继续训练它。它会有用吗?

# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)

# continue training:
model.train(other_sentences)
model.save(fname)