我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程,将这些文件从HDFS复制到S3。
任何人都可以指出任何处理它的java API。
由于
答案 0 :(得分:8)
“对Hadoop 0.11.0中的$ {HADOOP_HOME} / bin / hadoop distcp工具添加了对S3块文件系统的支持(参见HADOOP-862).distcp工具设置MapReduce作业来运行副本。 distcp,许多成员的集群可以快速复制大量数据。映射任务的数量是通过计算源中文件的数量来计算的:即每个映射任务负责复制一个文件。源和目标可能指的是不同的文件系统类型。例如,source可能引用本地文件系统或以S3为目标的hdfs。“
在此处查看进出S3的批量复制http://wiki.apache.org/hadoop/AmazonS3