如何衡量回答相同问题的用户之间的相似性

时间:2012-11-05 14:57:25

标签: machine-learning recommendation-engine collaborative-filtering

我正在开发一个向用户推荐内容的项目。我想从每个用户创建一个配置文件,以便我可以对它们进行聚类并提供常见的建议,但在此之前我必须能够测量这些用户之间的相似性。我在一份问卷中想到了可以用模糊标签填写的问卷。

我的问题是我如何衡量回答这类问题的两个用户U1和U2的相关性(相似性)?

  • Q1。我认为东京是一个不错的城市。 U1:完全同意 U2:部分 同意
  • Q2。我读过堂吉诃德。 U1:完全不同意 U2:完全同意
  • ...
  • Qn。我认为塔伦蒂诺是一位优秀的电影导演。的 U1: 部分同意 U2:部分同意

我曾考虑将答案转换为数值,然后尝试计算Pearson相关系数。但我想知道是否有更优雅的方法来做到这一点。

1 个答案:

答案 0 :(得分:2)

将数值(来自提供的答案)转换为单个向量然后应用余弦相似度函数会很有用。事实证明,余弦相似性比Pearson相关系数更可靠(也更快)。

然而,这不是一个小问题,实施可能非常具有挑战性。