标签: python pandas scipy sparse-matrix
我有一个大约有3000列的pandas数据框。 第一列列出了一个类别(值可以重复)。
第二列一直到最后一列列出了1和0(它有点像指标矩阵)。每行有20个或更少的1,所以我正在处理一个稀疏矩阵。
我想创建一个字典,当给定特定类别时,它会为您提供类别中所有指标向量的余弦距离矩阵(保留数据框的顺序)。我的数据也有大约100,000行,所以我正在寻找一种有效的方法。
由于