应用错误收集

时间：2016-05-08 19:04:07

标签： hadoop amazon-s3 mapreduce

我知道Apache Hadoop提供了discp来将文件从aws s3复制到HDFS。但似乎效率不高，而且日志记录不灵活。

在我的项目中，每次向HDFS传输文件成功或失败后，都需要以自定义格式写入日志。由于大量数据加载，使用Hadoop MapReduce将aws数据加载到HDFS集群中效率最高，我说要编写类似于discp的Hadoop MapReduce作业。

我的计划是让每个节点上的每个Mapper加载一个带有aws Java SDK的s3目录，因为有许多s3目录要加载到HDFS。谁能提出一些关于如何实现这一目标的建议？提前致谢！

答案 0 :(得分：0)

您是否尝试s3a，s3a是orignal s3n的后继者 - 删除了一些限制（文件大小）并提高了性能？同样是distcp的问题 - 您使用哪个文件系统用于S3（s3n或s3a？）？最近在distcp中完成了一些工作 - 可能值得查看最新版本。