我遇到了一个spaCy的博客post,其中介绍了sense2vec的想法,并且还有一个在线界面可以使用它most similar function,同时还有一个online tool来玩相似性功能,由spaCy带来。
我无法理解这些工具是基于sense2vec算法还是仅仅是正常的预训练word2vec模型(我说的是大型英语模型)。
有没有办法定义我想要使用哪种模型?
重点是
答案 0 :(得分:0)
您可以按照these instructions in the docs加载自己的向量。使用该过程,您应该能够加载sense2vec向量。
用于.similarity()
方法的模型可以是完整的word2vec模型,也可以是张量,具体取决于您使用的是大型还是小型。您链接的sentence similarity tool描述了这一点:
默认情况下,spaCy使用平均向量算法,使用预先训练的向量(如果可用)(例如en_core_web_lg模型)。如果不是,则使用doc.tensor属性,该属性由标记器,解析器和实体识别器生成。这就是en_core_web_sm模型提供相似之处的方式。通常,基于.tensor的相似性将更具结构性,而单词矢量相似性将更具局部性。您还可以自定义.similarity()方法,以提供您自己的相似度函数,可以使用监督技术进行训练。