Hadoop Mapreduce从远程机器读取输入

时间:2016-06-06 05:33:28

标签: java hadoop mapreduce hdfs

场景:我想在远程计算机的本地Hadoop集群处理 1.5T 数据上运行map reduce程序。但我的本地Hadoop集群只有 100G 硬盘空间。

输入数据:来自远程机器的1.5T数据 本地机器磁盘大小:100G。

问题:如何直接从远程机器读取1.5T数据?

我知道有两种方法可以做到这一点。

  1. 直接指定AWS S3路径作为mapreduce程序的输入路径。不幸的是,我无法将数据上传到S3,因为不允许这样做。

  2. 使用HDFS HFTP。但是,我无法在远程计算机上安装HDFS,因为我没有权限。

  3. 在mapreduce程序中有没有其他方法可以从远程机器读取文件?

0 个答案:

没有答案