我的环境中有一个R脚本,该脚本在Hadoop基础结构上运行MapReduce作业。输入和输出数据都存储在HDFS中。为了从R环境加载结果并执行进一步的操作,使用了功能 from.dfs 。但是,我不确定这是正确的方法。我在文档中阅读了以下说明:
这些功能允许将数据从RAM移至文件系统并 背部。请记住,这两种存储介质的容量为 相差两个或两个以上数量级,因此转换将 仅在特定情况下有意义。 这些功能无法执行 任何尺寸控制,因此责任就在于用户。
如果mapreduce进程生成的文件约为50 GB,该怎么办?我需要50 GB的RAM还是文件以某种方式进行了分页和缓冲?
解决此问题的最佳方法是什么?