distcp:将文件从hdfs复制到s3(如何在scala或java中使用)

时间:2017-01-16 17:27:31

标签: scala amazon-s3 emr distcp

我试图通过以下代码通过distcp将大型文件从hdfs复制到s3:

val files:Array[String] = new Array[String](2)
files(0) = "/****/in.zip"

val in =  new Path(new URI("/**/in.zip"))
val out = new Path(new URI("***/out.zip"))
var distcpOpt = new DistCpOptions(in,out)
ToolRunner.run(new DistCp(new Configuration(),distcpOpt), files)

我尝试做类似于this link的事情。

之前有人这样做了,请帮忙。

1 个答案:

答案 0 :(得分:0)

我找到了解决方案:

1- files数组应该有两个值:第一个用于输入,第二个用于输出。

2- distcpOpt不需要任何值(空字符串就足够了)

3-从s3路径确定