使用PySpark对Spark进行计算并将结果存储在数据库或Spark DataFrame中?

时间:2017-07-31 15:01:29

标签: python database apache-spark pyspark

所以,我在spark数据帧中加载了一些数据(我正在使用PySpark)。我对它们进行了一些操作,例如join然后groupy等,然后我得到每个组的结果。

我想获取该结果并使用它来构建另一个数据框。我已经读过数据帧是不可变的,因此火花数据帧可能不是最好的选择。

下一个最佳选择是什么?我应该将结果写入数据库,例如RDS吗?

另一种方法是从每个结果中创建一行,并与我的结果数据框进行联合。

0 个答案:

没有答案