我有以下问题:
我有几个具有相似数据框的hdf5文件,我想根据多个列进行全局排序。
我的输入是文件名和我想用于排序的列的有序列表。 输出应该是包含所有排序数据的单个hdf5文件。
每个文件可以包含数百万行。我可以负担得起在内存中加载单个文件但不能加载整个数据集。
天真地我想首先将所有数据复制到一个hdf5文件中(这并不难)然后找到一种方法来对这个巨大的文件进行内存排序。
有没有一种快速方法可以在内存中根据多列对hdf5文件中存储的pandas数据结构进行排序?
我已经看过ptrepack但它似乎只允许你在一个列上进行排序。