Pyspark - Sql过滤器 - 通过检查id值是否以数组形式显示来选择所有行

时间:2017-10-04 13:51:48

标签: pyspark spark-dataframe pyspark-sql

我在Pyspark中有一个DataFrame,我需要选择其中id值在数组中显示的行。有人可以帮我吗?

示例:

 +---+-----+
 | id| col2|
 +---+-----+
 |123|  2  |
 |245| 32  |
 | 12| 34  |
 |234|  1  |
 +---+-----+

阵列:[123,12,234]

欲望结果:

+---+-----+
| id| col2|
+---+-----+
|123|  2  |
| 12| 34  |
|234|  1  |
+---+-----+

1 个答案:

答案 0 :(得分:1)

您可以将isinfilter

一起使用
ids = [123, 12, 234]
df.filter(df.id.isin(ids)).show()
+---+----+
| id|col2|
+---+----+
|123|   2|
| 12|  34|
|234|   1|
+---+----+