标签: python database apache-spark pyspark
所以,我在spark数据帧中加载了一些数据(我正在使用PySpark)。我对它们进行了一些操作,例如join然后groupy等,然后我得到每个组的结果。
join
groupy
我想获取该结果并使用它来构建另一个数据框。我已经读过数据帧是不可变的,因此火花数据帧可能不是最好的选择。
下一个最佳选择是什么?我应该将结果写入数据库,例如RDS吗?
另一种方法是从每个结果中创建一行,并与我的结果数据框进行联合。