我正在尝试创建一个pyspark数据框。我知道所有列名。对于具有ID的每一行,仅一组列需要具有值1。
例如,已知用户是否单击了网站。 user1可以单击url2和3。user2单击url1和3。然后输入数据框为
id | urlClicked |
-+ ---- +
u1 | url2
u1 | url3
u2 | url1
u2 | url3
... 对于所有其他用户,此操作继续进行。
然后,我知道输出数据帧将具有4列:id,url1,url2,url3等。
最终结果将是:
id | url1 | url2 | url3
-+ ---- + ---- + ----
u1 | 0 | 1 | 1
u2 | 1 | 0 | 1
u3 | 1 | 1 | 1
和许多其他行遵循相同的逻辑。