我的目标是将元数据保存在使用pandas方法管理的拼花文件中。
我定义了一个自定义DataFrame以使用新的属性“ alpha”(元数据)。我在这个片段中显示它:
class CustomDataFrame(pd.DataFrame):
_metadata = ['alpha']
@property
def _constructor(self):
return CustomDataFrame
然后,我可以正确使用这个新属性,例如df.alpha = x
。当我通过df.to_parquet(filename)
保存此CustomDataFrame并尝试将其读取为df.read_parquet(filename)
时出现了问题,因为未定义df.alpha
。
但是,如果我使用相同的方法,但是使用df.to_pickle(filename)
和df.read_pickle(filename)
,则alpha
属性将成功保存。
有人建议通过自定义DataFrame将镶木地板格式与元数据一起使用吗?我之所以这样想是因为当我将木地板与咸菜格式进行比较时,我的文件中的内存减少了一半。
谢谢!