嗨,我在15-20张桌子附近有多个Hive表。所有表都是通用模式。我需要将所有表合并为一个表。应从报表工具中查询单个表,因此性能也需要注意。
我试图这样。
create table new as
select * from table_a
union all
select * from table_b
还有其他方法可以更有效地组合所有表。任何帮助将不胜感激。
答案 0 :(得分:0)
如果将“ hive.exec.parallel”设置为true,Hive将并行处理。通过“ hive.exec.parallel.thread.number”,您可以指定并行线程的数量。这样可以提高整体效率。
答案 1 :(得分:0)
如果您尝试将table_A和table_b合并为一个,则最简单的方法是使用UNION ALL运算符。您可以在此处找到语法和用例-https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Union