我使用具有DateTime索引和多索引的数据做了很多工作。保存和读取.csv是单调乏味的,因为每次我必须reset_index并将其命名为“date”,然后当我再次阅读时,我必须将日期转换回日期时间并设置索引。什么格式可以帮助我避免这种情况?我更喜欢开源的东西 - 例如我认为SAS和Stata会这样做,但它们是专有的。
答案 0 :(得分:2)
羽毛就是这样做的: https://github.com/wesm/feather
Feather为数据帧提供二进制列式序列化。它是 旨在使读取和写入数据帧高效,并且 轻松地跨数据分析语言共享数据。这个最初的 版本附带python绑定(由Wes McKinney编写)和R. (由Hadley Wickham撰写)。
Feather使用Apache Arrow柱状内存规范 表示磁盘上的二进制数据。这使得读写操作成为可能 非常快。这对编码null / NA值特别重要 和可变长度类型,如UTF8字符串。
羽毛是更广泛的Apache Arrow项目的一部分。羽毛定义 它自己的简化模式和磁盘表示的元数据。
Feather目前支持以下列类型:
各种数字类型(int8,int16,int32,int64,uint8, uint16,uint32,uint64,float,double)。逻辑/布尔值。日期, 时间和时间戳。已修复的因子/分类变量 一组可能的值。 UTF-8编码的字符串。任意二进制数据。