我有一个单位张量(长度= 1)的列表。此列表包含 ~20 000 此类张量。张量具有 ~3 000 尺寸但非常稀疏。仅 x(0
答案 0 :(得分:1)
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html
from sklearn.metrics.pairwise import cosine_similarity
cos_sim = cosine_similarity(vector1,vector2)
答案 1 :(得分:0)
SciKit-Learn的cosine_similarity
是你的朋友:
from scipy import sparse
from sklearn.metrics.pairwise import cosine_similarity
# example test:
T = sparse.rand(4, 3, 0.9)
cosine_similarity(T)
# full run (tensor as described in question):
T = sparse.rand(20000, 3000)
%time cosine_similarity(T)
在我的机器上花费大约4.4秒。
# staying sparse:
%time cosine_similarity(T, dense_output=False)
在我的机器上花费不到2秒(即大约2倍加速)。