极大数据集的R内存问题

时间:2014-07-31 00:37:05

标签: r

我需要对包含CSV格式的混合(数字和分类)数据集的3.5gb数据集执行回归分析,该数据集包含180万条记录和1000个变量/列,主要包含0和1以及一些分类和数值。 (参考数据快照。)

我最初应该直接对此数据集执行群集,但是尽管在具有64 GB RAM的远程虚拟机(64位Windows Server 2012 R2)上运行它,我仍然会遇到很多与内存相关的错误。所以我想做一些因子分析来找到变量之间的相关性,这样我就可以将列数减少到600 - 700(尽可能多)。我很欣赏任何其他想法,因为我对数据分析非常天真。

我尝试了各种软件包,如ff,bigmemory,biganalytics,biglm,FactoMineR,Matrix等,但没有成功。总是遇到“无法分配大小的矢量......”或达到最大分配大小65535MB的其他一些错误。

你们能让我知道一个解决方案,因为我觉得内存应该是一个问题,因为64GB内存应该足够了。 数据集快照:

SEX AGE Adm Adm     LOS DRG DRG RW  Total   DC Disp Mortality   AAADXRUP
M   17  PSY         291 887 0.8189  31185    PDFU         0           0
M   57  PSY ER       31 884 0.9529  54960.4  SNF          0           0
F   23  AC  PH        3 775 0.5283  9497.7   HOM          0           0
F   74  AC  PH        3 470 2.0866  23020.3  SNF          0           0

在死亡率主要包含0或1之后还有其他列

0 个答案:

没有答案