Question

我需要对包含CSV格式的混合（数字和分类）数据集的3.5gb数据集执行回归分析，该数据集包含180万条记录和1000个变量/列，主要包含0和1以及一些分类和数值。（参考数据快照。）

我最初应该直接对此数据集执行群集，但是尽管在具有64 GB RAM的远程虚拟机（64位Windows Server 2012 R2）上运行它，我仍然会遇到很多与内存相关的错误。所以我想做一些因子分析来找到变量之间的相关性，这样我就可以将列数减少到600 - 700（尽可能多）。我很欣赏任何其他想法，因为我对数据分析非常天真。

我尝试了各种软件包，如ff，bigmemory，biganalytics，biglm，FactoMineR，Matrix等，但没有成功。总是遇到“无法分配大小的矢量......”或达到最大分配大小65535MB的其他一些错误。

你们能让我知道一个解决方案，因为我觉得内存应该是一个问题，因为64GB内存应该足够了。数据集快照：

SEX AGE Adm Adm     LOS DRG DRG RW  Total   DC Disp Mortality   AAADXRUP
M   17  PSY         291 887 0.8189  31185    PDFU         0           0
M   57  PSY ER       31 884 0.9529  54960.4  SNF          0           0
F   23  AC  PH        3 775 0.5283  9497.7   HOM          0           0
F   74  AC  PH        3 470 2.0866  23020.3  SNF          0           0

在死亡率主要包含0或1之后还有其他列

极大数据集的R内存问题

0 个答案: