我正在研究 item-item 的相似性,我的教授说如果我有一个基于流行度的协同过滤,那么我们需要使用 Jaccard 相似性进行归一化。
我有以下数据
Jack watched movie 2, movie 1, movie 3
Bob watched movie 1 and movie 3
Tim watched movie 1
对于 Tim,我们需要使用基于项目的协同过滤来推荐电影。
所以基于用户看过的电影数量的共现矩阵是:
movie 1 movie 2 movie 3
movie 1 0 1 2
movie 2 1 0 1
movie 3 2 1 0
我的教授说在使用 Jaccard 相似度对上述矩阵进行归一化后,我们得到以下矩阵:
movie 1 movie 2 movie 3
movie 1 0 1/3 2/2
movie 2 1/3 0 1/2
movie 3 2/3 1/2 0
有人能解释一下为什么看了电影 1 然后看电影 3 的人和看了电影 3 然后看电影 1 的人不相似吗?