标签: r dataframe compression
我注意到一个有趣的差异,即当我将它们保存到RDS文件中时,较小的数据帧具有较大的大小。考虑两个数据帧:
数据帧A(DFA):包含22个变量和2,000,000个观察值
数据框B(DFB):A的子集,删除性别变量等于女性的行。此外,DFA包含3个填充为空的空列,因此该数据框包含19个变量和180万个观察值
因此,DFB是DFA的列子集和行的子集,但DFA的RDS文件大小(8.6 MB)小于DFB的大小(11.4 MB)。
为什么会这样?