微调spaCy的词嵌入

时间:2018-08-17 17:54:44

标签: python-3.x gensim spacy

Spacy具有强大的解析能力,并且它的API在大多数情况下非常直观。 Spacy API是否有任何方法可以微调其词嵌入模型?特别是,我想保留Spacy的令牌,并在可能时给它们一个向量。

我目前遇到的唯一一件事是使用gensim训练嵌入(但是那时我不知道如何将嵌入从spacy加载到gensim),然后再加载然后返回spacy,如:{ {3}}。这对于第一部分无济于事:对spacy令牌的培训。

任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

从spacy文档中:

  

如果您需要训练word2vec模型,我们建议您实施   在Python库Gensim中。

除了gensim之外,您还可以使用其他实现方式,例如FastText。使用spacy中的自定义向量的最简单方法是使用init-model命令行实用工具创建模型,如下所示:

wget https://s3-us-west-1.amazonaws.com/fasttext-vectors/word-vectors-v2/cc.la.300.vec.gz
python -m spacy init-model en model --vectors-loc cc.la.300.vec.gz

然后像往常一样简单地加载模型:nlp = spacy.load('model')。空格website中有详细的文档。