python - 熊猫：科学编程的列与（多）指数？

在我的研究中，我有很多情况下我有一个Pandas表，其中包含许多不同的变量和描述符组合（例如，不同的主题，大脑区域，分析参数等）。我的数据大小大约为数十万行（有时）。通常我会想做一些事情，比如某些变量的平均值会折叠其他变量的值，或者相对于另一个变量绘制一个变量，等等。我的问题是：当最好将变量视为数据列而不是索引时，是否有一般的经验法则？我的理解是将事物作为索引处理使子集更容易，查找更快，但具有不可变的缺点。到目前为止，我一直采用的方法是将所有内容都视为一个列，但我想知道使用索引功能可以获得哪些优势，以及何时最好使用它们。

我附上了我的数据示例;每一行都是一次试验，最后一列（'acc'）是该试验的数据（无关紧要，但是分类器对于该试验的预测是否正确或不正确），所有其他列都是关于该试验的其他信息（例如，受试者，哪个脑区，哪个分析选项用于该试验等）。所以我想知道将非数据列作为索引或带有Pandas的列处理是否通常更好（在简单的数据管理，聚合，绘图等方面）。

熊猫：科学编程的列与（多）指数？

0 个答案: