这是我到蜂巢的处女航。 我有多个Hive表,例如快照,其名称如下:
revenue_20110131
reveue_20110228
revenue_20110331
purchases_qrt1
purchases_qrt2
purchases_qrt3
purchases_qrt4
我有很多这样的快照表。现在,我需要构建一个脚本,该脚本以表名的一部分作为参数,并从所有类似名称的表中读取记录,并将所有这些表中的全部数据导出到单个ORC文件中。
如何在Hive中执行此操作?我不知道从哪里开始,因为我以前从未在Hive上工作过。有人可以帮帮我吗?预先谢谢大家。
答案 0 :(得分:0)
如果表在其位置上具有公共的上层子目录,则可以使用上层目录创建新表,然后通过一次选择将它们全部选中。
create table new tbl
...
location 'upper common directory path here'
然后在选择之前添加这些设置:
set hive.mapred.supports.subdirectories=TRUE;
set mapred.input.dir.recursive=TRUE;