c = df[df['CUSTOMER_EMAIL_ID'].isin(d.CUSTOMER_EMAIL_ID)]
如何在PySpark中编写相同的表达式?
答案 0 :(得分:0)
如果您要问"请提供df
中CUSTOMER_EMAIL_ID
字段与CUSTOMER_EMAIL_ID
字段中d
字段匹配值的所有行}",然后我认为您的问题可以使用semi join来回答,具体来说是:
c = df.join(b, 'CUSTOMER_EMAIL_ID', 'leftsemi')
左(右)半连接在概念上可以被认为是内连接,然后是放下右(左)列。