希望将一个表格中的一列拆分为两个单独的表格,并在Hive中进行50/50的随机分布

时间:2019-02-26 19:17:14

标签: sql hive

正如主题所述,我正在尝试从父表的一个特定列中获取信息,并将其输出到两个单独的子表中。信息需要随机分配和平均分配。我还在where子句中应用了过滤器。我倾向于使用TOP PERCENT制作第一个表格,如下所示:

create table rand1 as 
select top (50) percent id
from table
where filter
order by rand()

但是这部分代码似乎没有执行,不确定我是否使用了错误的语法。

对于第二个表,我正在考虑将父表和第一个子表连接在一起,并使用NOT IN子句排除两个表中都存在的任何行并输出其余的行。任何想法都将不胜感激。

0 个答案:

没有答案