pyspark为每一行创建一个数据框,某些列值需要设置为1

时间:2018-08-15 19:32:00

标签: dataframe pyspark databricks

我正在尝试创建一个pyspark数据框。我知道所有列名。对于具有ID的每一行,仅一组列需要具有值1。

例如,已知用户是否单击了网站。 user1可以单击url2和3。user2单击url1和3。然后输入数据框为

  

id | urlClicked |

     

-+ ---- +

     

u1 | url2

     

u1 | url3

     

u2 | url1

     

u2 | url3

... 对于所有其他用户,此操作继续进行。

然后,我知道输出数据帧将具有4列:id,url1,url2,url3等。

  • 在第一行(id = u1)中,仅单击[url2,url3]。因此,url2和url3列需要设置为1。
  • 在第二行(id = u2)中,仅单击[col1,col3],因此url1和url3列需要设置为1。这一直持续到考虑到最后一个用户为止。

最终结果将是:

id | url1 | url2 | url3

-+ ---- + ---- + ----

u1 | 0 | 1 | 1

u2 | 1 | 0 | 1

u3 | 1 | 1 | 1

和许多其他行遵循相同的逻辑。

0 个答案:

没有答案