R加载/转换大数据

时间:2019-10-06 01:28:27

标签: r tidyverse

我正在使用R中的大型数据集,我想找到一种更快的方法来上传它并进行转换。一个数据是50 GB,我正在使用避风港软件包上传它(它是dta格式)。另一个是20 GB,我正在使用read_csv上载它。我可以访问具有70多个内核的服务器,而且我不知道如何使用它来使此代码运行更快。我基本上只是使用标准命令运行此代码,但需要很长时间才能上传数据。我读过的大多数并行处理教程都只关注使用内核进行循环,但是我只需要使用dplyr和一些基本的统计建模(lm)进行数据转换。我听说过使用SQL处理大数据。问题是出于学术目的进行此分析,因此我无权访问SQL Server。有没有办法利用这些内核来加快标准R编码的速度?在这种情况下,该代码是tidyverse重点的数据导入和处理。

0 个答案:

没有答案