用pyspark连接三个数据框

时间:2020-06-24 15:58:30

标签: python dataframe join pyspark

我有三个数据框:

df=df1.crossJoin(df3.select("id2")).select("id1", "id2")

通过以下指令在df1和df3之间进行交叉连接之后:

pip install  (name of package)

我想添加一个新列( newCloumn ),该列必须像这样填写: 1 ,如果 category 列包含 values 列中的至少一个值, 0 否则

1 个答案:

答案 0 :(得分:1)

如果您还重命名两个数据框中的“类别”列(例如:category1和category2),则将更为实用。试试吧,我想这就是您要寻找的

df=df.select(col("id1").alias("id"), "id2")
df4=df.join(df1, df.id==df1.id1).drop("id").join(df2, df4.category1==df2.category2)