我在“中”和“大”数据之间的那个空间。我有#crisks:
我的数据存储在Amazon Web Server上,目前我每天都会下载整个数据集(更改代表<5%)。
我希望在笔记本电脑和桌面电脑上获得相同的开发体验。我在AWS上使用过RStudio的服务器应用程序,但应用程序本身有点慢,我更喜欢在本地使用RStudio。
此时我的CPU功率并不十分受限,主要是下载/ IO和内存。我应该学习什么才能使这个过程更有效率?
答案 0 :(得分:1)
你没有提到你的实际计算是什么,因此很难提供好的建议,但对于内存不足的解决方案,请考虑:
请记住,内存不足的解决方案可能会慢得多,并且需要比内存解决方案更专业的工作,所以第一步是购买更多内存,如果可能的话,特别是因为你从小开始机器。具有&gt;的机器;如今,256G的RAM并不难获得。
对于数据传输,请尽可能使用rsync等增量解决方案,并在有意义时(对数据集进行小的更改) - 听起来与您的用例匹配。