pySpark Columns相似度的问题

时间:2017-08-07 09:17:54

标签: python pyspark cosine-similarity

TL;博士 如何使用pySpark比较行的相似度?

我有一个numpy数组,我想比较每行的相似性

print (pdArray)
#[[ 0.  1.  0. ...,  0.  0.  0.]
# [ 0.  0.  3. ...,  0.  0.  0.]
# [ 0.  0.  0. ...,  0.  0.  7.]
# ..., 
# [ 5.  0.  0. ...,  0.  1.  0.]
# [ 0.  6.  0. ...,  0.  0.  3.]
# [ 0.  0.  0. ...,  2.  0.  0.]]

使用scipy我可以计算余弦相似度如下......

pyspark.__version__
# '2.2.0'

from sklearn.metrics.pairwise import cosine_similarity
similarities = cosine_similarity(pdArray)

similarities.shape
# (475, 475)

print(similarities)
array([[  1.00000000e+00,   1.52204908e-03,   8.71545594e-02, ...,
          3.97681174e-04,   7.02593036e-04,   9.90472253e-04],
       [  1.52204908e-03,   1.00000000e+00,   3.96760121e-04, ...,
          4.04724413e-03,   3.65324300e-03,   5.63519735e-04],
       [  8.71545594e-02,   3.96760121e-04,   1.00000000e+00, ...,
          2.62367141e-04,   1.87878869e-03,   8.63876439e-06],
       ..., 
       [  3.97681174e-04,   4.04724413e-03,   2.62367141e-04, ...,
          1.00000000e+00,   8.05217639e-01,   2.69724702e-03],
       [  7.02593036e-04,   3.65324300e-03,   1.87878869e-03, ...,
          8.05217639e-01,   1.00000000e+00,   3.00229809e-03],
       [  9.90472253e-04,   5.63519735e-04,   8.63876439e-06, ...,
          2.69724702e-03,   3.00229809e-03,   1.00000000e+00]])

由于我希望扩展到比我原来的(475行)矩阵更大的集合,我正在寻找使用Spark通过pySpark

from pyspark.mllib.linalg.distributed import RowMatrix

#load data into spark 
tempSpark =  sc.parallelize(pdArray)
mat = RowMatrix(tempSpark)

# Calculate exact similarities
exact = mat.columnSimilarities()

exact.entries.first()
# MatrixEntry(128, 211, 0.004969676943490767)

# Now when I get the data out I do the following...
# Convert to a RowMatrix.
rowMat = approx.toRowMatrix()
t_3 = rowMat.rows.collect()
a_3 = np.array([(x.toArray()) for x in t_3])
a_3.shape
# (488, 749)

正如你所看到的那样,数据的形状是a)不再是正方形(它应该是b和b)的尺寸与原始行数不匹配......现在它确实匹配(部分数量为每行中的功能(len(pdArray [0])= 749)但我不知道488来自哪里

749的存在让我觉得我需要首先转置我的数据。这是对的吗?

最后,如果是这种情况,为什么尺寸不是(749,749)?

1 个答案:

答案 0 :(得分:1)

首先,columnSimilarities方法仅返回相似度矩阵的上三角形部分的非对角线条目。如果沿着对角线没有1,则在结果相似度矩阵中对于整行可能有0。

其次,pyspark RowMatrix没有有意义的行索引。因此,当从CoordinateMatrix转换为RowMatrix时,i中的MatrixEntry值将被映射到任何方便的值(可能是某些递增索引)。因此,可能发生的事情是,将所有0的行简单地忽略,并且当将矩阵转换为RowMatrix时矩阵被垂直压扁。

使用columnSimilarities方法计算后立即检查相似性矩阵的维数可能是有意义的。您可以使用numRows()numCols()方法执行此操作。

print(exact.numRows(),exact.numCols())

除此之外,听起来你需要转置矩阵以获得正确的矢量相似性。此外,如果您需要以类似RowMatrix的形式提供此功能,则可以尝试使用具有有意义的行索引的IndexedRowMatrix,并在转换时保留原始CoordinateMatrix的行索引。