应用错误收集

我们正在用PySpark代码替换我们的datastage ETL工具。我们的ETL程序从源数据库（Oracle）获取行，然后将最终转换后的数据集插入Oracle数据库。我们正在Spark中使用数据帧和临时表进行ETL处理。当我们将最终输出写入Oracle表时，我们希望在任何数据库异常的情况下将不良记录记录到文本文件中，并继续处理其他记录。例如，我们在spark临时表中保留10行，然后尝试将它们插入到最终oracle表中。如果有几行由于违反数据库约束而失败，我们需要将这些失败的行写入文本文件，然后插入所有其他行。请让我知道如何实现。

每一行的pyspark ETL日志错误

0 个答案: