Pyspark按其他数据框

时间:2017-02-09 23:04:08

标签: python-2.7 apache-spark dataframe pyspark apache-spark-sql

不确定为什么我会遇到困难,看起来很简单,因为它在R或熊猫中相当容易。我想避免使用pandas,因为我处理了大量数据,我相信toPandas()会将所有数据加载到pyspark中的驱动程序内存中。

我有2个数据框:df1df2。我想过滤df1df1.userid = df2.userid df1.group = df2.group(删除所有行)。我不确定是否应该使用filter()join()sql例如:

df1:
+------+----------+--------------------+
|userid|   group  |      all_picks     |
+------+----------+--------------------+
|   348|         2|[225, 2235, 2225]   |
|   567|         1|[1110, 1150]        |
|   595|         1|[1150, 1150, 1150]  |
|   580|         2|[2240, 2225]        |
|   448|         1|[1130]              |
+------+----------+--------------------+

df2:
+------+----------+---------+
|userid|   group  |   pick  |
+------+----------+---------+
|   348|         2|     2270|
|   595|         1|     2125|
+------+----------+---------+

Result I want:
+------+----------+--------------------+
|userid|   group  |      all_picks     |
+------+----------+--------------------+
|   567|         1|[1110, 1150]        |
|   580|         2|[2240, 2225]        |
|   448|         1|[1130]              |
+------+----------+--------------------+

编辑: 我尝试了很多join()和filter()函数,我相信我得到的最接近的是:

cond = [df1.userid == df2.userid, df2.group == df2.group]
df1.join(df2, cond, 'left_outer').select(df1.userid, df1.group, df1.all_picks) # Result has 7 rows

我尝试了很多不同的连接类型,我也尝试了不同的cond值:     cond =((df1.userid == df2.userid)&(df2.group == df2.group))#result有7行     cond =((df1.userid!= df2.userid)&(df2.group!= df2.group))#result有2行

但是,似乎联接正在添加其他行,而不是删除。

我正在使用python 2.7spark 2.1.0

1 个答案:

答案 0 :(得分:34)

左反连接是您正在寻找的:

df1.join(df2, ["userid", "group"], "leftanti")

但左外连接可以做同样的事情:

(df1
    .join(df2, ["userid", "group"], "leftouter")
    .where(df2["pick"].isNull())
    .drop(df2["pick"]))