用numpy和theano计算余弦相似度的最简单方法是什么? 以numpy数组给出的向量。
我尝试使用numpy来计算余弦相似度矩阵,并且它的工作速度非常慢。但是,我对theano完全不熟悉,但是假设这个库可以帮助我建立余弦相似度矩阵。
好吧,救命! :)
答案 0 :(得分:4)
这是一篇关于Python中余弦相似性的文章:Cosine Similarity between 2 Number Lists。
我在Numpy和Theano中重写了this answer:
def cos_sim_numpy(v1, v2):
numerator = sum(v1*v2)
denominator = math.sqrt(sum(v1**2)*sum(v2**2))
return numerator/denominator
def compile_cos_sim_theano():
v1 = theano.tensor.vector(dtype=theano.config.floatX)
v2 = theano.tensor.vector(dtype=theano.config.floatX)
numerator = theano.tensor.sum(v1*v2)
denominator = theano.tensor.sqrt(theano.tensor.sum(v1**2)*theano.tensor.sum(v2**2))
return theano.function([v1, v2], numerator/denominator)
cos_sim_theano_fn = compile_cos_sim_theano()
v1 = numpy.asarray([3,45,7,2], dtype=np.float32)
v2 = numpy.asarray([2,54,13,15], dtype=np.float32)
print cos_sim_theano_fn(v1, v2), cos_sim_numpy(v1, v2)
Output: 0.972284251712 0.972284251712