标签: hive apache-spark-sql hiveql pyshark shark-sql
我今天遇到一种情况, 假设我有3个表(T1,T2,T3),其中对T1(假设23个存储桶),T3(假设12个存储桶)进行存储。 我们在T1&T3,T2&T3和T1&T2之间进行联接操作。 哪个数据复制操作会很快?
这与复制数据和配置单元优化有关