在PySpark数据框中创建的二进制列不能用作过滤器?

时间:2020-03-16 14:55:04

标签: pyspark pyspark-sql pyspark-dataframes

我正在使用PySpark在我的数据框中创建一个附加的BinaryColumn,然后使用它来过滤该数据框。此过程显示错误。

  1. 数据:

Click here to see the data

  1. 创建了二元列:

Click here to see the Binary Column

Click here to see the Schema

  1. 过滤器和错误:

Click here to see the Error

2 个答案:

答案 0 :(得分:0)

尝试使用filter函数

df_filter = df_bc.filter(col('binary_col') == 'false')
df_filter.show()

答案 1 :(得分:0)

您要将binary_col添加到 df_bc 数据帧中,而不是添加到df_中。

尝试从df_bc数据帧访问binary_col,

df_filter=df_bc.where(df_bc.binary_col)
df_filter.show()
相关问题