Question

我在hive中面临ORC类型数据的问题。如果遇到类似的问题，需要一些建议。

我在hive表中存储了大量数据（分区和ORCed）。 ORC数据大小约为4 TB。我试图将此数据复制到未压缩的普通蜂巢表（相同的表结构）。

这个过程永远在进行。在追求中占据了大量的非DFS存储空间。目前该过程运行了12个小时。占用了130 TB的非DFS。对于具有20台服务器的Hadoop集群而言，这非常不正常。

以下是我的参数：

Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**

我想知道这个ORCed表上的简单连接或正常分析操作会做什么。理论告诉我们，ORC格式数据可以提高基本DML查询的性能。

如果我做错了或者这是正常行为，有人可以告诉我吗？使用ORCed数据，这是我的第一次体验。

嗯，在初学者看来，纱线日志文件的大小已经创建了。大多数情况下，它只显示错误日志。

由于