标签: apache-spark pyspark apache-spark-sql
有没有一种方法可以创建一个仅包含“大于1”值的新列? 有一个用于转发的列,我需要创建一个新的二进制列。在pyspark中,0表示零转发,1表示一次转发或更多。
答案 0 :(得分:1)
您可以使用
df.withColumn('greater_than_1', (F.col('retweets').cast('int') >= 1).cast('int'))