在我的研究中,我有很多情况下我有一个Pandas表,其中包含许多不同的变量和描述符组合(例如,不同的主题,大脑区域,分析参数等)。我的数据大小大约为数十万行(有时)。通常我会想做一些事情,比如某些变量的平均值会折叠其他变量的值,或者相对于另一个变量绘制一个变量,等等。我的问题是:当最好将变量视为数据列而不是索引时,是否有一般的经验法则?我的理解是将事物作为索引处理使子集更容易,查找更快,但具有不可变的缺点。到目前为止,我一直采用的方法是将所有内容都视为一个列,但我想知道使用索引功能可以获得哪些优势,以及何时最好使用它们。
我附上了我的数据示例;每一行都是一次试验,最后一列('acc')是该试验的数据(无关紧要,但是分类器对于该试验的预测是否正确或不正确),所有其他列都是关于该试验的其他信息(例如,受试者,哪个脑区,哪个分析选项用于该试验等)。所以我想知道将非数据列作为索引或带有Pandas的列处理是否通常更好(在简单的数据管理,聚合,绘图等方面)。