Spark内部联接API返回太多记录

时间:2019-11-18 06:23:38

标签: apache-spark inner-join

File link here我有两个相同的数据帧,每个数据帧都有27817行。尝试内部联接这些数据帧,它返回128954989行。

dataframe1.join(dataframe2,“ _ c0”)。count res16:长= 128954989

如何解决此问题。

1 个答案:

答案 0 :(得分:0)

发生这种情况是因为您的联接正在创建笛卡尔积。如果要将行保留在联接的左侧,可以执行左联接,例如:

dataframe1.join(dataframe2,"_c0", "left")

此外,您还拥有更多类型的联接,并且必须根据需要选择其中一种联接。 Here可以看到带有示例的连接胰蛋白酶: