我需要在一个18GB的数据集上使用聚合函数,该数据集包含CSV格式的数字和分类数据集(在某些情况下有超过6000万条记录)。
我尝试过各种各样的软件包,比如ff或bigmemory但没有成功。问题是我必须按照某些列的值对某些列进行分组,这些列在一列上应用聚合函数,或者作为分割函数在几列上应用。
一个简短的例子:
country day month year f person_id age...
1 23 01 2014 4005 5000 20...
1 23 01 20014 4005 244 43...
....
按国家/地区和月份进行分组我们想知道聚合在data.frame或data.table上的乘客数量(不支持大型数据集) 或者按年龄和性别分组应用分析日期月份和日期,因为分割功能可以对data.frame或data.table执行(因此没有大型数据集)。
你们能告诉我一个解决方案吗?请提供任何有用的提示。非常感谢您的合作!