我的目标是根据每个列条目是否在另一个数据框列中,将值为0或1的“搅动”列添加到我的pyspark数据框中。
我的数据集太大,因此我无法创建toPandas(),但我认为这不是最佳选择。
我试图在下面的代码中使用isin(),但是它返回一个全为0的列,就像它没有赋值一样
from pyspark.sql.functions import lit
df_1 = df_1.withColumn("churn", lit(0))
valueWhenTrue = 1
df_1 = df_1.withColumn("churn", when((df_1.id.isin(df_2.id) == True), valueWhenTrue).otherwise(col("churn")))
df_1['churn'][df_1['id'].isin(df2['id'].unique())] = 0
预期的结果将与通过在上面的熊猫代码中获得的结果一样