连接两个表时的行数很奇怪

时间:2019-12-20 16:53:04

标签: python python-3.x dataframe pyspark-sql

当我使用Pyspark对spark数据帧执行联接时,我得到了这个奇怪的结果。 我有一个数据框df1,其中 print(df1.count())给出

116066151

print(df2.count())给出

9418101

我像这样执行连接:

df3 = df1.join(df2, on=['SEQ_ID'], how='inner')

在两个数据帧中,SEQ_ID是公用的。 但是当我进行计数时 print(df3.count())给出的行数为

2950342258
那就是30亿行! 我不是SQL专家,但我假设您进行联接时,联接表中的行数将等于或小于最大联接表中的行数。我阅读了pyspark的join子句,但未提及此内容。 我想念什么吗? 任何见识将不胜感激! 谢谢

0 个答案:

没有答案