如何使用Hadoop MapReduce将数据从aws s3导入HDFS

时间:2016-05-08 19:04:07

标签: hadoop amazon-s3 mapreduce

我知道Apache Hadoop提供了discp来将文件从aws s3复制到HDFS。但似乎效率不高,而且日志记录不灵活。

在我的项目中,每次向HDFS传输文件成功或失败后,都需要以自定义格式写入日志。由于大量数据加载,使用Hadoop MapReduce将aws数据加载到HDFS集群中效率最高,我说要编写类似于discp的Hadoop MapReduce作业。

我的计划是让每个节点上的每个Mapper加载一个带有aws Java SDK的s3目录,因为有许多s3目录要加载到HDFS。谁能提出一些关于如何实现这一目标的建议?提前致谢!

1 个答案:

答案 0 :(得分:0)

您是否尝试s3as3a是orignal s3n的后继者 - 删除了一些限制(文件大小)并提高了性能?同样是distcp的问题 - 您使用哪个文件系统用于S3(s3ns3a?)?最近在distcp中完成了一些工作 - 可能值得查看最新版本。