标签: apache-spark pyspark spark-dataframe
我有两个数据帧,其行数很大(数百万到数千万)。我想在他们之间加入。
在我目前正在使用的BI系统中,您可以通过首先对特定键进行分区,然后对该键进行连接来快速完成此操作。
这是我需要在Spark中遵循的模式,还是无关紧要?乍一看似乎很多时间浪费了分区之间的数据,因为它没有被正确地预分区。
如果有必要,那我该怎么做?
答案 0 :(得分:1)
How to define partitioning of DataFrame?
然而,只有在两个条件下才有意义: