你好SO python社区,
我对numpy稀疏矩阵COO格式有疑问。它如下:
我有csv
个文件,其中包含4列a
,b
,c
,d
,我需要从此csv文件中创建SciPy COO_Matrix但我需要能够保留SciPy Sparse Matrix中条目的插入顺序。目前,我的数据按列d
排序,最终在Matrix中也希望保留此订单。目前,这就是我的工作:
def _build_interaction_matrix(rows, cols, data, score):
mat = sp.lil_matrix((rows, cols), dtype=np.int32)
for a, b, c, d in data:
mat[a, b] = 1.0
return mat.tocoo()
现在我打电话的时候:
def get_triplets(mat):
return mat.row, mat.col, np.random.randint(mat.shape[1], size=len(mat.row))
订单已丢失,我按a
排序,然后按b
排序。有没有办法按键d
对矩阵进行排序,这样我仍然会返回一个COO矩阵,其中a
和b
为列,但按d
排序?
编辑:最终目标是能够通过保留顺序迭代地构建矩阵,然后将其转换为COO
。我需要迭代迭代,因为列c
上有一个条件我需要在循环中检查。
Edit2:我还需要实现COO.getrow(row_index)
来保留row_index
列索引的原始排序
对于Edit2,
我能想出的最好的是:
def get_all_items(uid, pid, u):
init = 0
indices = np.argsort(uid, kind='mergesort')
for i in range(len(indices)):
if (uid[indices[i]] == u and init == 0):
start = i
init = 1
if(i >= 1 and uid[indices[i-1]] ==u and uid[indices[i]] != u):
end = i
idex = indices[start:end]
if len(idex) != 0:
return pid[idex]
感谢您就解决此问题提出建议,如果您需要更多信息,请与我们联系。
答案 0 :(得分:2)
如果直接以coo
格式制作矩阵,则保留订单,至少最初是:
In [165]: row=np.array([0,1,3,5,2,0])
In [166]: col=np.array([1,0,3,0,1,4])
In [170]: M = sparse.coo_matrix((np.ones(6,int),(row,col)))
In [171]: M
Out[171]:
<6x5 sparse matrix of type '<class 'numpy.int32'>'
with 6 stored elements in COOrdinate format>
In [172]: print(M)
(0, 1) 1
(1, 0) 1
(3, 3) 1
(5, 0) 1
(2, 1) 1
(0, 4) 1
实际上,row和col属性将是输入数组(只要它们兼容):
In [173]: M.row
Out[173]: array([0, 1, 3, 5, 2, 0])
In [174]: id(M.row),id(row)
Out[174]: (2858024776, 2858024776) # same id
但这个命令很容易丢失。例如,通过csr
格式的往返(在大多数计算中使用)最终按行然后按列排序
In [178]: print(M.tocsr().tocoo())
(0, 1) 1
(0, 4) 1
(1, 0) 1
(2, 1) 1
(3, 3) 1
(5, 0) 1
如果有重复点,则将它们相加
转换为lil
:
In [180]: M.tolil().rows
Out[180]: array([[1, 4], [0], [1], [3], [], [0]], dtype=object)
根据定义, rows
按行排序,但在一行中它不必排序。
sum_duplicates
使用第一列进行词法排序
In [181]: M.sum_duplicates()
In [182]: print(M)
(1, 0) 1
(5, 0) 1
(0, 1) 1
(2, 1) 1
(3, 3) 1
(0, 4) 1
迭代地构建lil
不会保留任何&#39;顺序&#39;信息:
In [213]: Ml = sparse.lil_matrix(M.shape,dtype=M.dtype)
In [214]: for r,c in zip(row,col):
...: Ml[r,c]=1
...: print(Ml.rows)
...:
[[1] [] [] [] [] []]
[[1] [0] [] [] [] []]
[[1] [0] [] [3] [] []]
[[1] [0] [] [3] [] [0]]
[[1] [0] [1] [3] [] [0]]
[[1, 4] [0] [1] [3] [] [0]]
getrow
可能比我最初想的更容易:
制作一个随机矩阵:
In [270]: M1=sparse.random(20,20,.2)
In [271]: M1
Out[271]:
<20x20 sparse matrix of type '<class 'numpy.float64'>'
with 80 stored elements in COOrdinate format>
In [273]: M1.row
Out[273]:
array([10, 16, 2, 8, 5, 2, 15, 7, 7, 4, 16, 0, 14, 14, 12, 0, 13,
16, 17, 12, 12, 12, 17, 15, 15, 18, 18, 0, 13, 13, 9, 10, 6, 10,
2, 4, 9, 1, 11, 7, 3, 19, 12, 10, 13, 10, 3, 9, 10, 7, 18,
18, 17, 12, 12, 2, 18, 3, 5, 8, 11, 15, 12, 3, 18, 8, 0, 13,
6, 7, 6, 2, 9, 17, 14, 4, 5, 5, 6, 6], dtype=int32)
In [274]: M1.col
Out[274]:
array([ 4, 15, 1, 10, 19, 19, 17, 2, 3, 18, 6, 1, 18, 9, 6, 9, 19,
5, 15, 8, 13, 1, 13, 7, 1, 14, 3, 19, 2, 11, 6, 5, 17, 11,
15, 9, 15, 7, 11, 15, 0, 16, 10, 10, 7, 19, 1, 19, 18, 9, 5,
0, 5, 7, 4, 6, 15, 11, 0, 12, 14, 19, 3, 4, 10, 9, 13, 1,
3, 13, 12, 18, 3, 9, 7, 7, 10, 8, 19, 0], dtype=int32)
行号为10的元素:
In [275]: M1.row==10
Out[275]:
array([ True, False, False, False, False, False, False, False, False,
....
False, False, False, False, False, False, False, False], dtype=bool)
相应的列值(它们没有排序)
In [276]: M1.col[M1.row==10]
Out[276]: array([ 4, 5, 11, 10, 19, 18], dtype=int32)
将那些与csr格式合作的getrow
进行比较:
In [277]: M1.getrow(10)
Out[277]:
<1x20 sparse matrix of type '<class 'numpy.float64'>'
with 6 stored elements in Compressed Sparse Row format>
In [278]: M1.getrow(10).indices
Out[278]: array([19, 18, 11, 10, 5, 4], dtype=int32)
并通过lil
In [280]: M1.tolil().rows[10]
Out[280]: [4, 5, 10, 11, 18, 19]