我正在处理一个拥有2000万以上记录的巨大数据集。我正在尝试将所有数据保存为羽毛格式,以便快速访问,并在进行分析时追加。
是否可以将熊猫数据框附加到现有的羽毛格式文件中?
答案 0 :(得分:2)
羽毛文件应立即写入。因此,不支持将其附加到它们。
相反,我建议您使用如此大的数据集,以使用pyarrow.parquet.write_table
或pandas.DataFrame.to_parquet
将数据写入单个 Apache Parquet文件中,并将数据也读回到Pandas中使用pyarrow.parquet.ParquetDataset
或pandas.read_parquet
。这些功能可以将Parquet文件的集合视为单个数据集,然后立即读取到单个DataFrame中。