标签: join hive distinct
我在蜂巢中有10张桌子。我正在加入所有这10张桌子以组成一张桌子。
我需要在最终的hive表中使用唯一记录。 我可以通过两种方式实现这一目标
1)对每个表执行不同的操作,并将所有这些表连接起来形成最终的配置表。
2)我可以加入所有的hive表,在最终的hive表上我可以做不同的操作。
任何建议哪个选项将是良好的表现,或两种方式的表现都相同。
仅供参考 - 我们在表格中有大量数据。
提前致谢。