我有三个数据框:
df=df1.crossJoin(df3.select("id2")).select("id1", "id2")
通过以下指令在df1和df3之间进行交叉连接之后:
pip install (name of package)
我想添加一个新列( newCloumn ),该列必须像这样填写: 1 ,如果 category 列包含 values 列中的至少一个值, 0 否则
答案 0 :(得分:1)
如果您还重命名两个数据框中的“类别”列(例如:category1和category2),则将更为实用。试试吧,我想这就是您要寻找的
df=df.select(col("id1").alias("id"), "id2")
df4=df.join(df1, df.id==df1.id1).drop("id").join(df2, df4.category1==df2.category2)