我有一个要构建到coo或csr_matrix中的数据框,因此我可以执行回归。诀窍是,我试图找到将稀疏的df内容存储到内存中可用的最佳方法。当前格式为:
颜色1:唯一ID
第2列:标签(浮标)
第3列:字典(矩阵特征是键,值是计数)
因此,两行可能看起来像这样:
id |标签|令牌
sw1t | 3.4211 | {'foo':1,'bar':3,'var':1}
4r3o | 2.9987 | {'foo':3,'rev':2,'hew':2}
以此类推...
是将其转换为稀疏矩阵(然后是基于列表的东西,如coo或csr)的最佳方法吗?看起来效率低下,但是scipy中可接受的输入是稀疏矩阵。我有50,000多条记录(并且正在迅速增长),因此内存将成为一个问题。
感谢任何建议。