amazon-s3 - 如何以编程方式有效地将文件从HDFS复制到S3

如何以编程方式有效地将文件从HDFS复制到S3

时间：2010-09-14 18:09:37

标签： amazon-s3 hadoop hdfs

我的hadoop作业在HDFS上生成大量文件，我想编写一个单独的线程，将这些文件从HDFS复制到S3。

任何人都可以指出任何处理它的java API。

由于

1 个答案:

答案 0 :(得分：8)

“对Hadoop 0.11.0中的$ {HADOOP_HOME} / bin / hadoop distcp工具添加了对S3块文件系统的支持（参见HADOOP-862）.distcp工具设置MapReduce作业来运行副本。 distcp，许多成员的集群可以快速复制大量数据。映射任务的数量是通过计算源中文件的数量来计算的：即每个映射任务负责复制一个文件。源和目标可能指的是不同的文件系统类型。例如，source可能引用本地文件系统或以S3为目标的hdfs。“

在此处查看进出S3的批量复制http://wiki.apache.org/hadoop/AmazonS3

如何以编程方式有效地将文件从HDFS复制到S3
如何将文件从S3复制到Amazon EMR HDFS？
如何从HDFS到S3获取文件
将文件（图像）从文件系统复制到HDFS
distcp可用于将文件目录从S3复制到HDFS吗？
将文件从s3复制并解压缩到HDFS
如何将文件复制到HDFS？
将文件从本地复制到hdfs
如何将文件从HDFS复制到远程HDFS
如何将一组文件从HDFS传输到S3

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？