我在hive中面临ORC类型数据的问题。如果遇到类似的问题,需要一些建议。
我在hive表中存储了大量数据(分区和ORCed)。 ORC数据大小约为4 TB。我试图将此数据复制到未压缩的普通蜂巢表(相同的表结构)。
这个过程永远在进行。在追求中占据了大量的非DFS存储空间。目前该过程运行了12个小时。占用了130 TB的非DFS。对于具有20台服务器的Hadoop集群而言,这非常不正常。
以下是我的参数:
Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**
我想知道这个ORCed表上的简单连接或正常分析操作会做什么。理论告诉我们,ORC格式数据可以提高基本DML查询的性能。
如果我做错了或者这是正常行为,有人可以告诉我吗?使用ORCed数据,这是我的第一次体验。
嗯,在初学者看来,纱线日志文件的大小已经创建了。大多数情况下,它只显示错误日志。
由于