假设这两个 pyspark dataframes
:
dfA
id
1
2
3
4
dfB
src,dst
2 ,3
1 ,3
3 ,4
4 ,1
7 ,3
1 ,8
我怎样才能得到这个想要的输出:
resultDf
src,dst
2 ,3
1 ,3
3 ,4
4 ,1
基本上我想从 Rows
中选择包含 dfB
值的 dfA
答案 0 :(得分:1)
我能够使用 spark.sql
resultDf = spark.sql("SELECT * FROM dfA WHERE dfB.src IN (SELECT * FROM dfA) AND dfB.dst IN (SELECT * FROM dfA)")