我是stackoverflow的新手。请原谅我糟糕的英语。
我正在将 word2vec 用于学校项目。我想使用域特定语料库(如物理教科书)使用 Word2Vec 创建单词向量。由于语料库的较小,这种独立的方法不能提供良好的结果。当我们想要评估可能远远超出教科书词汇量的单词时,这尤其会受到伤害。
我们希望教科书对域特定关系和语义“接近度”进行编码。 “量子”和“海森堡”在本教科书中特别贴近,例如。这可能不适用于背景语料库。要处理通用词(如“any”),我们需要基本的背景模型(就像Google在word2vec网站上提供的那样)。
我们是否有任何方法可以使用我们较新的语料库来取代背景模型。只是对语料库等进行培训并不奏效。
是否有任何尝试组合来自两个语料库的一般和特定的矢量表示。我在搜索中找不到任何内容。
答案 0 :(得分:0)
让我们谈谈gensim
,因为你用它标记了你的问题。您可以使用gensim在python中加载以前训练过的模型。然后你继续训练它。它会有用吗?
# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)
# continue training:
model.train(other_sentences)
model.save(fname)