python - 使用PySpark对Spark进行计算并将结果存储在数据库或Spark DataFrame中？ - Thinbug

使用PySpark对Spark进行计算并将结果存储在数据库或Spark DataFrame中？

时间：2017-07-31 15:01:29

标签： python database apache-spark pyspark

所以，我在spark数据帧中加载了一些数据（我正在使用PySpark）。我对它们进行了一些操作，例如join然后groupy等，然后我得到每个组的结果。

我想获取该结果并使用它来构建另一个数据框。我已经读过数据帧是不可变的，因此火花数据帧可能不是最好的选择。

下一个最佳选择是什么？我应该将结果写入数据库，例如RDS吗？

另一种方法是从每个结果中创建一行，并与我的结果数据框进行联合。

0 个答案:

没有答案