我知道Apache Hadoop提供了discp
来将文件从aws s3复制到HDFS。但似乎效率不高,而且日志记录不灵活。
在我的项目中,每次向HDFS传输文件成功或失败后,都需要以自定义格式写入日志。由于大量数据加载,使用Hadoop MapReduce将aws数据加载到HDFS集群中效率最高,我说要编写类似于discp
的Hadoop MapReduce作业。
我的计划是让每个节点上的每个Mapper加载一个带有aws Java SDK
的s3目录,因为有许多s3目录要加载到HDFS。谁能提出一些关于如何实现这一目标的建议?提前致谢!
答案 0 :(得分:0)
您是否尝试s3a
,s3a
是orignal s3n
的后继者 - 删除了一些限制(文件大小)并提高了性能?同样是distcp
的问题 - 您使用哪个文件系统用于S3(s3n
或s3a
?)?最近在distcp
中完成了一些工作 - 可能值得查看最新版本。