使用标签为给定的项目集创建相似性矩阵的最佳方法

时间:2016-08-26 10:48:25

标签: python nlp scikit-learn

我们有格式数据:

{
  '1': ['Lathi Charge', 'NIT', 'Nirmal Singh']
  '2': ['Kangana Ranaut', 'Hrithik Roshan']
  '3': ['Hrithik Roshan', 'mohenjo daro', 'release date'],
  '4': ['NIT', 'Placements']
  ...
}

字典的键是项目,值是与它们相关联的标签。条目数量约为1000万,我们想计算每个项目之间的相似度?

与此相关的另一个问题是,如果运行时出现任何新条目,那么计算其与现有条目的相似性的最佳方法是什么。

1 个答案:

答案 0 :(得分:1)

我能想到的唯一一个相似度得分可以可靠地处理您正在查看的数据(看起来您的数据类似于在语料库研究中收集的数据)被表示为单词袋,每个单词可能包含语料库中其他文档中不存在的几个单词:该余弦相似度。 Here是一个很好的解释,有一些python代码可以用。