Question

我在以下维度的python中有两个稀疏矩阵（a和b）：

a = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
    with 1127853 stored elements in Compressed Sparse Row format>

和

b = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
    with 439309 stored elements in Compressed Sparse Row format>

问题：我想获得长度为240760的列向量，它是两个矩阵的行方式点积。例如，dot(a[0],b[0])将是我的输出向量的第一个元素。 dot(a[1],b[1])将是第二个，依此类推。

有没有一个矢量化的简单方法来实现这个目标？

编辑： 实现此目的的一种方法是将每一行转换为密集向量，将其展平，然后使用numpy.dot()。类似的东西：

np.dot(np.array(a[0]).flatten(),np.array(b[0]).flatten()).

但这需要按行迭代并将每行转换为密集向量，这非常耗时。我认为这可能是一种更简单的方法......

Answer 1

scipy稀疏矩阵在numpy矩阵子类上建模，因此将*实现为矩阵乘法。 a.multiply是逐个元素的多元化，例如np.array *使用的。{/ 1>

我建议制作几个小矩阵，并尝试各种形式的乘法，包括你认为的np.dot等价物。用更小的东西来判断发生了什么会更容易。

a = np.arange(12).reshape(3,4)
a1 = sparse.csr_matrix(a)

np.dot(a, a.T)
a1 * a.T
a*a
a1.multiply(a1)
etc

仅供参考，这是你想要的（使用密集阵列）：

In [7]: a=np.arange(12).reshape(3,4)

In [8]: [np.dot(a[i],a[i]) for i in range(3)]
Out[8]: [14, 126, 366]

In [9]: np.einsum('ij,ij->i',a,a)
Out[9]: array([ 14, 126, 366])

和稀疏

In [11]: a1=sparse.csr_matrix(a)

完整的矩阵或点积更符合您的要求，对吗？你只想要对角线。

In [15]: (a1*a1.T).A
Out[15]: 
array([[ 14,  38,  62],
       [ 38, 126, 214],
       [ 62, 214, 366]], dtype=int32)

In [16]: a.dot(a.T)
Out[16]: 
array([[ 14,  38,  62],
       [ 38, 126, 214],
       [ 62, 214, 366]])

In [21]: (a1*a1.T).diagonal()
Out[21]: array([ 14, 126, 366], dtype=int32)

对于非常稀疏的东西，采用全矩阵乘法后跟对角线可能与任何替代方案一样快。迭代稀疏矩阵的行是一个相对较慢的操作，而矩阵乘法是用快速c代码实现的。

另一种方式 - 元素乘法后跟sum。

In [22]: np.sum(a*a,axis=1)
Out[22]: array([ 14, 126, 366])

In [23]: a1.multiply(a1).sum(axis=1)
Out[23]: 
matrix([[ 14],
        [126],
        [366]], dtype=int32)

稀疏实现sum作为矩阵乘法（由一列1）。

In [26]: a1.multiply(a1)*np.array([1,1,1,1])[:,None]
Out[26]: 
array([[ 14],
       [126],
       [366]], dtype=int32)

点积稀疏矩阵

1 个答案: