说我在2个数据帧中有两个“ID”列,我想显示DF1中不存在于DF2中的ID
我不知道我是否应该使用join,merge或isin。
cond = [df.name != df3.name]
df.join(df3, cond, 'outer').select(df.name, df3.age).collect()
不确定更改条件是否会给我结果。
答案 0 :(得分:3)
在pyspark中,您可以使用leftanti join,
>>> df1 = spark.createDataFrame([(0,'val1'),(1,'val2'),(4,'val4')],['id','val'])
>>> df1.show()
+---+----+
| id| val|
+---+----+
| 0|val1|
| 1|val2|
| 4|val4|
+---+----+
>>> df2 = spark.createDataFrame([(0,'val1'),(1,'val2'),(3,'val3'),(2,'val2')],['id','val'])
>>> df2.show()
+---+----+
| id| val|
+---+----+
| 0|val1|
| 1|val2|
| 3|val3|
| 2|val2|
+---+----+
>>> df1.join(df2,'id','leftanti').show()
+---+----+
| id| val|
+---+----+
| 4|val4|
+---+----+
类似地,
>>> df2.join(df1,'id','leftanti').show()
+---+----+
| id| val|
+---+----+
| 3|val3|
| 2|val2|
+---+----+
答案 1 :(得分:1)
使用isin
和fir ~df1['id]
进行数据帧比较。
DF1:
id name
0 1 a
1 2 b
2 3 c
3 4 d
DF2:
id name
0 1 aa
1 5 bb
2 2 cc
3 10 dd
result = df1.loc[~df1['id'].isin(df2['id'])]
result
id name
2 3 c
3 4 d
希望这个答案有所帮助。
答案 2 :(得分:0)
这是一个代码片段,它使用来自pyspark.sql的isin来过滤您不感兴趣的ID。 map / lambda函数用于构建要过滤的ID列表。
from __future__ import print_function
from pyspark.sql import SparkSession
spark_session = SparkSession \
.builder \
.appName("test_isin") \
.getOrCreate()
dict1 = [[1,'a'], [2,'b'], [3,'c'], [4,'d']]
dict2 = [[1, 'aa'], [5,'bb'], [2, 'cc'], [10, 'dd']]
df1 = spark_session.createDataFrame(dict1, ["id", "name"])
df2 = spark_session.createDataFrame(dict2, ["id", "name"])
df2_id = df2.select(df2.id).collect()
ids_to_be_filtered = []
map(lambda each : ids_to_be_filtered.append(each.id), df2_id)
result = df1[~df1.id.isin(df2_id)]
result.show()
此处还有文档链接 https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#pyspark.sql.Column.isin
请不要忘记告诉我它是否解决了您的问题:)