Pyspark - 根据另一个数据框中存在的值选择数据框中的行

时间:2021-03-25 18:16:40

标签: python pyspark

假设这两个 pyspark dataframes

dfA

id
1
2
3
4

dfB

src,dst
2  ,3
1  ,3
3  ,4
4  ,1
7  ,3
1  ,8

我怎样才能得到这个想要的输出:

resultDf

src,dst
2  ,3
1  ,3
3  ,4
4  ,1

基本上我想从 Rows 中选择包含 dfB 值的 dfA

1 个答案:

答案 0 :(得分:1)

我能够使用 spark.sql

获得想要的结果
resultDf = spark.sql("SELECT * FROM dfA WHERE dfB.src IN (SELECT * FROM dfA) AND dfB.dst IN (SELECT * FROM dfA)")