所以我有一个数据框,其中有两列用于用户,第二列用于他们的帖子。我想创建另一个数据帧,即用户名和所有帖子。
我拥有的例子
username post
-------- ----
Bob I want the new Iphone7
Alice Anyone else buying the google pixel
Bob Just bought a mac book pro
我想要的是
Username Post
bob I want new Iphone7 Just bought a mac book pro
Alice Anyone else buying the google pixel
答案 0 :(得分:0)
你将groupBy(用户名)然后使用concat_ws(post)使用单个空格作为你的角色来连接你的Post列。请参阅此官方pyspark文档:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.groupBy
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.concat_ws