我想根据对10个问题的回答来比较用户。我最初的想法是将每个问题解决为整数[1,5],但这个想法不会一直有效。例如:
vec1 = [1,1,1,1,1,1,1,1,1,1]
vec2 = [5,5,5,5,5,5,5,5,5,5]
get_cos_sim(vec1, vec2) = 1
因此即使用户完全不同地响应,矢量也是相同的。
我希望根据对每个问题的回答的相似性来获得类似的用户。因此,对于给定的问题,如果A的回答被解决为1而B的回答被解决为2,则这些问题中的回答之间的相似性将高于回答4的人A和C的回答。
答案 0 :(得分:0)
以下是我将使用的指标:
取每个答案之间的差值的绝对值,将所有这些值相加,相似性是相反的。