v1 = [33, 24, 55, 56]
v2 = [32, 25, 51, 40]
v3 = [ ... ]
v4 = [ ... ]
通常,为了找到哪个向量与v1最相似,我会使用余弦相似度算法对其他向量运行v1。
现在,我有一组更复杂的矢量结构:
v1 = [ { 'a': 4, 'b':9, 'c': 12 ... },
{ 'a', 3, 'g':3, 'b': 33 ... },
{ 'b', 1, 'k': 6, 'n': 19 ... },
...
]
v2 = [ {}, {}, {} ... ]
v3 = [ {}, {}, {} ... ]
v4 = [ {}, {}, {} ... ]
鉴于这种结构,您将如何计算相似度? (一个好的匹配将是一个向量,其中许多键与v1类似,这些键的值与v1的值非常相似)
btilly的回答:
def cosine_sim_complex(v, w):
'''
Complex version of cosine similarity
'''
def complicated_dot(v, w):
dot = 0
for (v_i, w_i) in zip(v, w):
#{ _, _ }, {_, _}
for x in v_i:
if x in w_i:
dot += v_i[x] * w_i[x]
return float(dot)
length_v = float(complicated_dot(v, v) ** 0.5)
length_w = float(complicated_dot(w, w) ** 0.5)
score = complicated_dot(v, w) / length_v / length_w
return score
v1 = [ {'a':44, 'b':21 }, { 'a': 55, 'c': 22 } ]
v2 = [ {'a':99, 'b':21 }, { 'a': 55, 'c': 22 } ]
cosine_sim_complex(v1, v2)
1.01342687531
答案 0 :(得分:2)
你在更多方面做同样的事情。
以前你只有4个维度。现在,您可以使用索引的二维标注来获得更大的维度集。但数学仍然是一样的。你有一个像这个未经测试的代码的点积:
def complicated_dot(v, w):
dot = 0
for (v_i, w_i) in zip(v, w):
for x in v_i.iterkeys():
if x in w_i:
dot += v_i[x] * w_i[x]
return dot
然后你可以应用你已经知道的余弦相似度算法。
答案 1 :(得分:0)
您可以为每个项目使用设置和操作ixor(^)。而且我把所有的大小都等于大小。
diffs = []
vs = (v2, v3, v4)
for vcmp in vs:
diff = 0
for v_item_index in range(len(vcmp)):
diff += set(vcmp[v_item_index]) ^ set(v[v_item_index])
diffs.append(diff)
print diffs
现在,包含低值的差异中的项目具有最相似的索引。