我有一个大的稀疏scipy矩阵(〜40k乘100k)。我想按行降序排序,并抓取/切片每行的前K值(~20-50)。我还想知道原始列索引,因为矩阵中的每一列代表一个单词/特征(在我的例子中,我运行scikit来获取tfidf值)。
40 K行K值,不会那么大,然后我可以执行.toarray()
之类的操作,但我不确定为每个argsort(axis=1)
执行{{1}}的最有效方法是什么行,获取值以及索引,并存储此新数组。我的一个想法是为每个元素使用键:值对。
使用这个新数组,我想做一些操作,例如,打印顶部矩阵元素值,使用哪个行(对应于文档)和原始索引。或者只是逐行打印出所有顶部值和每个值的相应索引。
感谢您提前获得帮助
PS 它与我问here的问题有点有关,关于对大矩阵的每一列进行求和,然后对总和进行排序,以及抓取前K个值以及列索引。 / p>