如何使用distcp将hdfs文件作为ORC文件移动到S3中?

时间:2018-04-16 03:45:01

标签: apache-spark amazon-s3 hive distcp s3distcp

我需要将hdfs中的文本文件移动到aws s3。 HDFS中的文件是文本文件,未分区。迁移后的S3文件输出应该在orc中并在特定列上进行分区。最后,在此数据的基础上创建一个配置单元表。

实现这一目标的一种方法是使用spark。但我想知道,使用Distcp将文件复制为ORC是否可行。

想知道任何其他最佳选项可用于完成上述任务。

先谢谢。

1 个答案:

答案 0 :(得分:0)

DistCp只是一个复制命令;它没有转换任何东西。您正在尝试执行生成某些ORC格式输出的查询。您将不得不使用Hive,Spark或Hadoop MapReduce等工具来完成它。