使用gensim在python中的语料库中的Jaccard索引

时间:2018-06-20 16:45:08

标签: python-2.7 nlp gensim

如何使用gensim找出语料库中向量的Jaccard索引?

1 个答案:

答案 0 :(得分:1)

您可以使用

gensim.matutils.jaccard(vec1, vec2)

计算两个向量的Jaccard距离。另请参见gensim documentation

  

gensim.matutils.jaccard(vec1,vec2)

     

计算向量之间的Jaccard距离。参数:

vec1 ({scipy.sparse, numpy.ndarray, list of (int, float)}) – Distribution vector.
vec2 ({scipy.sparse, numpy.ndarray, list of (int, float)}) – Distribution vector.
     

返回值:vec1和vec2之间的Jaccard距离。值在[0,1]范围内,其中0   是最小距离(最大相似度),1是最大距离(最小   相似)。

     

返回类型:浮点型