按键加入spark数据帧中的行?

时间:2016-10-25 20:28:28

标签: apache-spark pyspark

所以我有一个数据框,其中有两列用于用户,第二列用于他们的帖子。我想创建另一个数据帧,即用户名和所有帖子。

我拥有的例子

username   post

--------   ----

Bob        I want the new Iphone7

Alice      Anyone else buying the google pixel 

Bob        Just bought a mac book pro 

我想要的是

Username  Post

bob      I want new Iphone7 Just bought a mac book pro

Alice    Anyone else buying the google pixel

1 个答案:

答案 0 :(得分:0)

你将groupBy(用户名)然后使用concat_ws(post)使用单个空格作为你的角色来连接你的Post列。请参阅此官方pyspark文档:

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.groupBy

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.concat_ws