令人困惑的内部联接在pyspark

时间:2017-01-25 03:08:49

标签: pyspark pyspark-sql

我在pyspark shell中使用内部连接,如下所示:

responseObj1 = = given().relaxedHTTPSValidation().contentType("application/json")
            .contentType("application/json").
            body("{\"requestId\":\"Request1\",\"clientId\":\"LPE\",\"loyaltyAccountNumber\":\"1M92741392\"}").
            when().
            post("XXXXX");

由于我使用相同的表进行内连接,因此tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 应该与tab_df.count()相等,但ori_df.count()给我0!

2 个答案:

答案 0 :(得分:0)

使用此命令:

tab_df = ori_df.join(ori_df, ['column_name'])

pyspark默认使用内连接

我尝试在我的计算机上加入两个相同的表格并且可以正常工作

为什么要加入两个相同的表?

答案 1 :(得分:0)

然后你可以使用pyspark的subtract()方法。 要知道两个数据帧是否相等。