应用错误收集

数据与数据子集之间的RDS大小差异

时间：2018-12-04 18:33:46

标签： r dataframe compression

我注意到一个有趣的差异，即当我将它们保存到RDS文件中时，较小的数据帧具有较大的大小。考虑两个数据帧：

数据帧A（DFA）：包含22个变量和2,000,000个观察值

数据框B（DFB）：A的子集，删除性别变量等于女性的行。此外，DFA包含3个填充为空的空列，因此该数据框包含19个变量和180万个观察值

因此，DFB是DFA的列子集和行的子集，但DFA的RDS文件大小（8.6 MB）小于DFB的大小（11.4 MB）。

为什么会这样？

0 个答案:

没有答案