在groupby之后将Spark DataFrame的行聚合到String

时间:2017-07-04 16:05:55

标签: scala apache-spark dataframe

我是Spark和Scale的新手,可能真的需要一个提示来解决我的问题。所以我有两个DataFrames A(列id和名称)和B(列id和文本)想要加入它们,按ID分组并将所有文本行组合成一个字符串:

A

+--------+--------+
|      id|    name|
+--------+--------+
|       0|       A|
|       1|       B|
+--------+--------+

+--------+ -------+
|      id|    text|
+--------+--------+
|       0|     one|
|       0|     two|
|       1|   three|
|       1|    four|
+--------+--------+

期望的结果:

+--------+--------+----------+
|      id|    name|     texts|
+--------+--------+----------+
|       0|       A|   one two|
|       1|       B|three four|
+--------+--------+----------+

到目前为止,我正在尝试以下方法:

var C = A.join(B, "id")
var D = C.groupBy("id", "name").agg(collect_list("text") as "texts")

除了我的文本列是字符串数组而不是字符串之外,这非常有效。我非常感谢你的帮助。

2 个答案:

答案 0 :(得分:7)

我只是添加一些小功能,以提供正确的解决方案,即

A.join(B, Seq("id"), "left").orderBy("id").groupBy("id", "name").agg(concat_ws(" ", collect_list("text")) as "texts")

答案 1 :(得分:0)

这很简单:

psycopg2

第一个DataFrame是立即结果,b DataFrame包含为每个id收集的文本。然后你加入了一个。 bCollected应该小于b本身,因此它可能获得更好的随机播放时间