应用错误收集

spaCy相似性 - 将sense2vec或word2vec设置为默认值

时间：2018-01-24 09:51:54

标签： nlp word2vec spacy sense2vec

我遇到了一个spaCy的博客post，其中介绍了sense2vec的想法，并且还有一个在线界面可以使用它most similar function，同时还有一个online tool来玩相似性功能，由spaCy带来。

我无法理解这些工具是基于sense2vec算法还是仅仅是正常的预训练word2vec模型（我说的是大型英语模型）。

有没有办法定义我想要使用哪种模型？

重点是

1 个答案:

答案 0 :(得分：0)

您可以按照these instructions in the docs加载自己的向量。使用该过程，您应该能够加载sense2vec向量。

用于.similarity()方法的模型可以是完整的word2vec模型，也可以是张量，具体取决于您使用的是大型还是小型。您链接的sentence similarity tool描述了这一点：

默认情况下，spaCy使用平均向量算法，使用预先训练的向量（如果可用）（例如en_core_web_lg模型）。如果不是，则使用doc.tensor属性，该属性由标记器，解析器和实体识别器生成。这就是en_core_web_sm模型提供相似之处的方式。通常，基于.tensor的相似性将更具结构性，而单词矢量相似性将更具局部性。您还可以自定义.similarity（）方法，以提供您自己的相似度函数，可以使用监督技术进行训练。