使用from.dfs(rmr2库)在RHadoop中加载大文件

时间:2019-01-01 21:52:11

标签: r hdfs hadoop2 rhadoop rmr2

我的环境中有一个R脚本,该脚本在Hadoop基础结构上运行MapReduce作业。输入和输出数据都存储在HDFS中。为了从R环境加载结果并执行进一步的操作,使用了功能 from.dfs 。但是,我不确定这是正确的方法。我在文档中阅读了以下说明:

  

这些功能允许将数据从RAM移至文件系统并   背部。请记住,这两种存储介质的容量为   相差两个或两个以上数量级,因此转换将   仅在特定情况下有意义这些功能无法执行   任何尺寸控制,因此责任就在于用户

  1. 这是什么意思?
  2. 如果mapreduce进程生成的文件约为50 GB,该怎么办?我需要50 GB的RAM还是文件以某种方式进行了分页和缓冲?

  3. 解决此问题的最佳方法是什么?

0 个答案:

没有答案