将HDFS上许多部分的现有ORC存储转换为一个CSV文件的最简单方法是什么?我可以使用配置单元和/或spark,但我想保持较小的内存要求,所以我不想spark.read
并且合并。
答案 0 :(得分:0)
我不确定但是您可以尝试从Hive导出ORC到CSV格式的外部表格,设置hive.merge.mapredfiles = true (https://community.hortonworks.com/questions/92415/how-to-merge-reduce-task-output-to-produce-final-o.html)