Question

我有一个受控词汇表列表，例如term1，term2，termN ..文档可能有一个或多个受控词汇表，但每个词汇表只能出现一次。

假设总受控词汇表是Term1，Term2，Term3，Term4，Term5，Term6。

选项1： Jaccard方法查看两个数据集并找到两个值等于1的事件。因此，我可以将文档的受控术语（术语1-6）的存在转换为二进制向量1,0。然后，基于Jaccard（http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html）

选项2 - 使用基于tf-idf的余弦相似度，如http://brandonrose.org/clustering

在这些选项（或可能是其他相似性度量）中，哪种度量适合于基于受控词表计算文档之间的相似性？我是数据挖掘的新手，任何建议都将受到赞赏。

Answer 1

它不会让我发表评论所以我会留下答案。我在R中做了类似的事情，并发现这个有用的

http://text2vec.org/similarity.html#cosine_similarity

我不知道是否有“正确答案”。我会尝试不同的方法，看看哪个方法得出的答案与人类的判断最相似。我认为“欧几里德距离”可能是最好的，但我不知道你是否可以使用它。我