什么是目前最好的基于R的大数据设置?

时间:2012-11-29 14:54:00

标签: r amazon-web-services

我在“中”和“大”数据之间的那个空间。我有#crisks:

  • 从服务器到本地计算机的高效下载/ IO。

我的数据存储在Amazon Web Server上,目前我每天都会下载整个数据集(更改代表<5%)。

  • 在单台计算机上处​​理大型数据集,使内存不成问题。

我希望在笔记本电脑和桌面电脑上获得相同的开发体验。我在AWS上使用过RStudio的服务器应用程序,但应用程序本身有点慢,我更喜欢在本地使用RStudio。

此时我的CPU功率并不十分受限,主要是下载/ IO和内存。我应该学习什么才能使这个过程更有效率?

1 个答案:

答案 0 :(得分:1)

你没有提到你的实际计算是什么,因此很难提供好的建议,但对于内存不足的解决方案,请考虑:

  1. 将问题明确拆分为较小的问题(为每个“块”创建文件)
  2. 流媒体解决方案 - 可以一次处理几行数据
  3. 对于R中的真实内存外工作,ff和BigMemory包。
  4. 并行计算解决方案,如并行包(不直接解决内存问题)
  5. 请记住,内存不足的解决方案可能会慢得多,并且需要比内存解决方案更专业的工作,所以第一步是购买更多内存,如果可能的话,特别是因为你从小开始机器。具有&gt;的机器;如今,256G的RAM并不难获得。

    对于数据传输,请尽可能使用rsync等增量解决方案,并在有意义时(对数据集进行小的更改) - 听起来与您的用例匹配。