标签: hive hiveql hive-query
所以我需要为存储在S3上的一些数据创建一个外部表并显式添加分区(遗憾的是,由于名称不匹配,目录层次结构不适合动态分区功能) 例如:
values
我在一个带有Hive 2.3.2和实例类型r4.2xarge的EMR集群上运行它,它有8个vCore和61GB内存。 完成添加一个分区大约需要4秒钟,它不是太糟糕但如果我们需要处理多天的数据,那么添加分区需要很长时间。
有没有让这个过程更快? 感谢