每一行的pyspark ETL日志错误

时间:2018-07-29 09:32:31

标签: apache-spark apache-spark-sql pyspark-sql

我们正在用PySpark代码替换我们的datastage ETL工具。我们的ETL程序从源数据库(Oracle)获取行,然后将最终转换后的数据集插入Oracle数据库。我们正在Spark中使用数据帧和临时表进行ETL处理。当我们将最终输出写入Oracle表时,我们希望在任何数据库异常的情况下将不良记录记录到文本文件中,并继续处理其他记录。例如,我们在spark临时表中保留10行,然后尝试将它们插入到最终oracle表中。如果有几行由于违反数据库约束而失败,我们需要将这些失败的行写入文本文件,然后插入所有其他行。请让我知道如何实现。

0 个答案:

没有答案