如何比较Pyspark中的两个数据框

时间:2017-02-20 05:34:56

标签: python pyspark

c = df[df['CUSTOMER_EMAIL_ID'].isin(d.CUSTOMER_EMAIL_ID)]

如何在PySpark中编写相同的表达式?

1 个答案:

答案 0 :(得分:0)

如果您要问"请提供dfCUSTOMER_EMAIL_ID字段与CUSTOMER_EMAIL_ID字段中d字段匹配值的所有行}",然后我认为您的问题可以使用semi join来回答,具体来说是:

c = df.join(b, 'CUSTOMER_EMAIL_ID', 'leftsemi')

左(右)半连接在概念上可以被认为是内连接,然后是放下右(左)列。