我有两个蜂巢表,其容量相等
记录数(Aprox):5779062484
两个表都有3个键:loc_id(int),item_id(int),week_detail(string)
我基于上面的键加入(内连接)两个表,结果数据大小相同。例如5779062484个
加入的总时间是aprox。 3小时
我想把两张桌子都打乱,然后加入以改善表现
我应该使用多少桶和多少列?
我只是在内连接的基础上直接从两个表中选择数据
另请告诉我,我可以使用群集中的任何特定设置来提高性能吗?
答案 0 :(得分:1)
很少有事情要记住(根据我自己的经验):
旁注:我通常会将Spark SQL用于大多数Hive操作,但Spark仍然不支持当前版本中的bucketed或事务表。