我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据数组的项目。
这样的熊猫数据数组将由一个表组成,该表包括一组文本(大约10万个文档,大约200个关键字)中存在的不同种类的词。
例如,想象一下“汽车”一词和“摩托车”一词以及编号为doc1,doc2等的文档。
我应该如何安排? a)每列的名称是文档编号,索引是单词“ car”和“ motorbike”,或者 b)反过来;索引是文档编号,列是单词吗?
我对熊猫没有足够的见识,无法预见到这种选择的后果。而且所有代码都将基于该决定。
请注意,数组不是静态的,将会不时地有更多的文档和更多的单词被添加到数组中。
您会推荐什么? a还是b?为什么?
谢谢。
答案 0 :(得分:1)
通常在大熊猫中,我们遵循一种惯例,即实例是列(此处是文档编号),要素是列(此处是单词)。因此,更喜欢使用方法“ b”。