我需要对包含CSV格式的混合(数字和分类)数据集的3.5gb数据集执行回归分析,该数据集包含180万条记录和1000个变量/列,主要包含0和1以及一些分类和数值。 (参考数据快照。)
我最初应该直接对此数据集执行群集,但是尽管在具有64 GB RAM的远程虚拟机(64位Windows Server 2012 R2)上运行它,我仍然会遇到很多与内存相关的错误。所以我想做一些因子分析来找到变量之间的相关性,这样我就可以将列数减少到600 - 700(尽可能多)。我很欣赏任何其他想法,因为我对数据分析非常天真。
我尝试了各种软件包,如ff,bigmemory,biganalytics,biglm,FactoMineR,Matrix等,但没有成功。总是遇到“无法分配大小的矢量......”或达到最大分配大小65535MB的其他一些错误。
你们能让我知道一个解决方案,因为我觉得内存应该是一个问题,因为64GB内存应该足够了。 数据集快照:
SEX AGE Adm Adm LOS DRG DRG RW Total DC Disp Mortality AAADXRUP
M 17 PSY 291 887 0.8189 31185 PDFU 0 0
M 57 PSY ER 31 884 0.9529 54960.4 SNF 0 0
F 23 AC PH 3 775 0.5283 9497.7 HOM 0 0
F 74 AC PH 3 470 2.0866 23020.3 SNF 0 0
在死亡率主要包含0或1之后还有其他列