Pandas性能:一列中有多个dtypes还是分成不同的dtypes?

时间:2014-05-21 13:25:17

标签: python pandas

我有大量的pandas DataFrames。 20毫米行,30列。行包含大量数据,每行都有一个使用某些列的“类型”。因此,我目前设计的DataFrame包含一些混合dtypes的列,适用于行的“类型”。

我的问题是,性能方面,我应该将混合dtype列拆分为两个单独的列还是保持为一个列?我遇到一些问题,让这些DataFrame甚至可以保存(to_pickle)并尽可能提高效率。

列可以是当前构造的float / str,float / int,float / int / str的混合。

1 个答案:

答案 0 :(得分:0)

在我看来,这可能取决于您后续的用例。但恕我直言,我会使每列唯一类型,否则功能,如group by with totals和其他常见的Pandas功能根本不起作用。