我在pyspark shell中使用内部连接,如下所示:
responseObj1 = = given().relaxedHTTPSValidation().contentType("application/json")
.contentType("application/json").
body("{\"requestId\":\"Request1\",\"clientId\":\"LPE\",\"loyaltyAccountNumber\":\"1M92741392\"}").
when().
post("XXXXX");
由于我使用相同的表进行内连接,因此tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
应该与tab_df.count()
相等,但ori_df.count()
给我0!
答案 0 :(得分:0)
使用此命令:
tab_df = ori_df.join(ori_df, ['column_name'])
pyspark默认使用内连接
我尝试在我的计算机上加入两个相同的表格并且可以正常工作
为什么要加入两个相同的表?
答案 1 :(得分:0)
然后你可以使用pyspark的subtract()方法。 要知道两个数据帧是否相等。