如何选择python熊猫排列列与行

时间:2019-11-10 13:51:03

标签: python pandas indexing row multiple-columns

我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据数组的项目。

这样的熊猫数据数组将由一个表组成,该表包括一组文本(大约10万个文档,大约200个关键字)中存在的不同种类的词。

例如,想象一下“汽车”一词和“摩托车”一词以及编号为doc1,doc2等的文档。

我应该如何安排? a)每列的名称是文档编号,索引是单词“ car”和“ motorbike”,或者 b)反过来;索引是文档编号,列是单词吗?

我对熊猫没有足够的见识,无法预见到这种选择的后果。而且所有代码都将基于该决定。

请注意,数组不是静态的,将会不时地有更多的文档和更多的单词被添加到数组中。

您会推荐什么? a还是b?为什么?

谢谢。

1 个答案:

答案 0 :(得分:1)

通常在大熊猫中,我们遵循一种惯例,即实例是列(此处是文档编号),要素是列(此处是单词)。因此,更喜欢使用方法“ b”。