Spacy具有强大的解析能力,并且它的API在大多数情况下非常直观。 Spacy API是否有任何方法可以微调其词嵌入模型?特别是,我想保留Spacy的令牌,并在可能时给它们一个向量。
我目前遇到的唯一一件事是使用gensim训练嵌入(但是那时我不知道如何将嵌入从spacy加载到gensim),然后再加载然后返回spacy,如:{ {3}}。这对于第一部分无济于事:对spacy令牌的培训。
任何帮助表示赞赏。
答案 0 :(得分:0)
从spacy文档中:
如果您需要训练word2vec模型,我们建议您实施 在Python库Gensim中。
除了gensim之外,您还可以使用其他实现方式,例如FastText。使用spacy中的自定义向量的最简单方法是使用init-model
命令行实用工具创建模型,如下所示:
wget https://s3-us-west-1.amazonaws.com/fasttext-vectors/word-vectors-v2/cc.la.300.vec.gz
python -m spacy init-model en model --vectors-loc cc.la.300.vec.gz
然后像往常一样简单地加载模型:nlp = spacy.load('model')
。空格website中有详细的文档。