如何合并来自两个熊猫数据帧的两个稀疏coo矩阵?

时间:2020-02-27 15:43:22

标签: python pandas numpy dataframe scipy

我有两个熊猫数据帧df1和df2,以及一段生成我稀疏矩阵的代码:

from scipy import sparse
sparse_matrix = sparse.coo_matrix((df['r'].astype('category').cat.codes, \
               (df['u'].astype('category').cat.codes, \
                df['i'].astype('category').cat.codes)))

其中df['r']是整数,而df['u']df['i']是字符串,这就是为什么我拥有

astype('category').cat.codes

数据帧df1df2有两个很大的组合(我有内存错误)。

想法是分别生成sparse_matrix_df1sparse_matrix_df2,然后将其组合。问题是df['u']df['i']有时在df1和df2中具有相同的值,在这种情况下,应将df['r']求和,所以我不能简单地合并sparse_matrix_df1和{{ 1}}。

如何获取sparse_matrix并保持正确的密钥?可以这么说,也许可以考虑将问题添加到批处理样式的sparse-matrix中。

0 个答案:

没有答案