我一直在远程计算机上处理大型数据集,而其内存比台式机还要多。为了准备在笔记本电脑上使用的数据,我仔细研究并更改了原始数据的许多dtypes,以帮助减少数据帧将占用的内存量。
如果我将数据框另存为.pkl文件,当在笔记本电脑上打开数据框时,它将以正确的dtypes(和较小的内存大小)加载吗?
我在几个地方搜索过,还没有找到任何确定性的文档或对此问题的答案,所以我觉得最好问一下并让其他人找到答案,这样他们就不必这样做了。艰辛的道路。
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15397309 entries, 0 to 15397308
Data columns (total 7 columns):
commentor object
comment_time int64
comment_id int64
parent_id int64
comment_deleted bool
comment_dead bool
parent_author object
dtypes: bool(2), int64(3), object(2)
memory usage: 2.9+ GB
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15397309 entries, 0 to 15397308
Data columns (total 7 columns):
commentor category
comment_time int32
comment_id int32
parent_id int32
comment_deleted bool
comment_dead bool
parent_author category
dtypes: bool(2), category(2), int32(3)
memory usage: 1.3+ GB