共生矩阵的尺度和计算机余弦相似度

时间:2017-02-22 08:27:20

标签: python scikit-learn normalization cosine symmetric

我有一个共生对称矩阵(1877 x 1877)。 我将列视为要素并计算它们之间的余弦距离。在此之前,我缩放矩阵(中心到平均值和分量方式比例到单位方差)。

from sklearn import preprocessing
from sklearn.metrics import pairwise_distances
X_scaled = preprocessing.scale(mymatrix)
dist = pairwise_distances(X_scaled,metric="cosine")

我的问题:

  1. 我应该在计算余弦之前缩放共现数据 距离/ SIM卡?下图显示了实际矩阵的直方图。 x轴表示矩阵中的共现值,y轴表示它们出现在矩阵中的次数。 enter image description here
  2. 上面的代码返回距离> 1和距离< 0.如何确保余弦距离值介于0和1之间?我应该在 dist 矩阵上应用min max scaler吗?

0 个答案:

没有答案