我开始学习在Python中进行数据分析。
在R中,您可以将数据加载到内存中,然后将变量保存到.rdata
文件中。
我正在尝试创建一个分析“项目”,所以我可以加载数据,存储脚本,然后保存输出,以便我可以在需要时回忆它。
Python中是否有等效函数?
由于
答案 0 :(得分:12)
您正在寻找的是二进制序列化。 Python中最值得注意的功能是pickle
。如果您有一些标准的科学数据结构,您可以改为使用HDF5。 JSON也适用于很多对象,但它不是二进制序列化 - 它是基于文本的。
如果扩展选项,还有很多其他序列化选项。比如谷歌的协议缓冲区(Rprotobuf
的开发者是SO上r标签的排名最高的回答者),Avro,Thrift等等。
虽然存在通用序列化选项,例如pickle
和.Rdat
,但仔细考虑您的使用情况将有助于使I / O快速且适合您的需求,尤其是在您需要随机访问时,可移植性,并行访问,工具重用等。例如,我现在倾向于避免使用.Rdat
大型对象。
答案 1 :(得分:2)