如何通过自定义DataFrame读取镶木地板文件中的元数据

时间:2020-10-03 14:55:50

标签: python pandas dataframe metadata parquet

我的目标是将元数据保存在使用pandas方法管理的拼花文件中。

我定义了一个自定义DataFrame以使用新的属性“ alpha”(元数据)。我在这个片段中显示它:

class CustomDataFrame(pd.DataFrame):

    _metadata = ['alpha']

    @property
    def _constructor(self):
        return CustomDataFrame

然后,我可以正确使用这个新属性,例如df.alpha = x。当我通过df.to_parquet(filename)保存此CustomDataFrame并尝试将其读取为df.read_parquet(filename)时出现了问题,因为未定义df.alpha

但是,如果我使用相同的方法,但是使用df.to_pickle(filename)df.read_pickle(filename),则alpha属性将成功保存。

有人建议通过自定义DataFrame将镶木地板格式与元数据一起使用吗?我之所以这样想是因为当我将木地板与咸菜格式进行比较时,我的文件中的内存减少了一半。

谢谢!

0 个答案:

没有答案