python - 有没有一种方法可以在pyspark数据框中聚合具有相同列值的行？

有没有一种方法可以在pyspark数据框中聚合具有相同列值的行？

时间：2019-07-23 17:07:45

标签： python dataframe pyspark

我有一个带有ID，地址等作为列的pyspark数据帧，并且我一直在尝试寻找一种将具有相同ID的行聚合为一行的方法。例如，如果 row1 = (id:1, address: 123A), row2 = (id:1, address:123B)，合并结果为 row = (id:1, address:[123A, 123B])

我尝试将数据帧转换为rdd，然后使用groupBy，但是它似乎没有我想要的功能。还是根本没有内置函数，我必须编写一个for循环？

0 个答案:

没有答案

聚合列值的有效方法是值是特定值
我有什么办法可以对数据帧执行与PySpark中的rdd的mapPartitions相同的操作？
知道列在PySpark数据框中是否具有恒定值的最快方法
有没有办法更改PER分区文件夹的输出行数？
是否有任何pyspark函数在数据框中添加序列号列？
如何创建带有行数+同一行的下一个值的数据框？
具有前一行值的新列
有没有一种方法可以在pyspark数据框中聚合具有相同列值的行？
如何提取在数据框中更改ID值的行？
substring函数返回列类型而不是值。有没有办法从pyspark的列类型中获取值

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？