尺寸tbl数据'爆炸'聚集后()

时间:2015-11-27 10:20:40

标签: r tidyr

我有一个文件,我想从宽格式转换为长格式。 但是当我使用gather()函数时,大小会增加很多 数据集以 332MB 的大小开始(64个变量的1048498个障碍物)
1次聚集后()大小为3GB,一秒钟后 32.3 GB (42个变量为177196162个障碍物)

有谁知道这是否是正常行为?

编辑:示例

library(nycflights13)
library(dplyr)

nycflightData <- dplyr::full_join(planes, flights, by = "tailnum")
nycflightDataLonger <- gather(testData, planeVar, planeInfo, tailnum,
                              type, manufacturer, model, engine,
                              engines, seats, convert = TRUE)

此数据集从49MB变为270MB

1 个答案:

答案 0 :(得分:0)

我只是意识到它确实有意义,因为从宽到长时,每列的原始观察数量都会增加(排在第1位)