熊猫:在内存中排序hdf5文件

时间:2014-07-02 08:22:57

标签: pandas hdf5 pytables

我有以下问题:

我有几个具有相似数据框的hdf5文件,我想根据多个列进行全局排序。

我的输入是文件名和我想用于排序的列的有序列表。 输出应该是包含所有排序数据的单个hdf5文件。

每个文件可以包含数百万行。我可以负担得起在内存中加载单个文件但不能加载整个数据集。

天真地我想首先将所有数据复制到一个hdf5文件中(这并不难)然后找到一种方法来对这个巨大的文件进行内存排序。

有没有一种快速方法可以在内存中根据多列对hdf5文件中存储的pandas数据结构进行排序?

我已经看过ptrepack但它似乎只允许你在一个列上进行排序。

0 个答案:

没有答案