我在Pyspark中有一个DataFrame,我需要选择其中id值在数组中显示的行。有人可以帮我吗?
示例:
+---+-----+
| id| col2|
+---+-----+
|123| 2 |
|245| 32 |
| 12| 34 |
|234| 1 |
+---+-----+
阵列:[123,12,234]
欲望结果:
+---+-----+
| id| col2|
+---+-----+
|123| 2 |
| 12| 34 |
|234| 1 |
+---+-----+
答案 0 :(得分:1)
您可以将isin
与filter
:
ids = [123, 12, 234]
df.filter(df.id.isin(ids)).show()
+---+----+
| id|col2|
+---+----+
|123| 2|
| 12| 34|
|234| 1|
+---+----+