我需要将hdfs中的文本文件移动到aws s3。 HDFS中的文件是文本文件,未分区。迁移后的S3文件输出应该在orc中并在特定列上进行分区。最后,在此数据的基础上创建一个配置单元表。
实现这一目标的一种方法是使用spark。但我想知道,使用Distcp将文件复制为ORC是否可行。
想知道任何其他最佳选项可用于完成上述任务。
先谢谢。
答案 0 :(得分:0)
DistCp只是一个复制命令;它没有转换任何东西。您正在尝试执行生成某些ORC格式输出的查询。您将不得不使用Hive,Spark或Hadoop MapReduce等工具来完成它。